JP2017201478A - キーワード評価装置、類似度評価装置、検索装置、評価方法、検索方法、及びプログラム - Google Patents
キーワード評価装置、類似度評価装置、検索装置、評価方法、検索方法、及びプログラム Download PDFInfo
- Publication number
- JP2017201478A JP2017201478A JP2016093227A JP2016093227A JP2017201478A JP 2017201478 A JP2017201478 A JP 2017201478A JP 2016093227 A JP2016093227 A JP 2016093227A JP 2016093227 A JP2016093227 A JP 2016093227A JP 2017201478 A JP2017201478 A JP 2017201478A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- sentence
- similarity
- evaluation
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
【解決手段】類似度評価装置100は、第1文に含まれる単語と第2文に含まれる単語との組み合わせの中で類似度が最も高い組み合わせにおける第1文に含まれる単語を第1のキーワード、第2文に含まれる単語を第2のキーワードとし、キーワード同士の類似度、キーワードを含む文節同士の類似度、及びキーワードを含む文節の係り受け同士の類似度のうち少なくとも2つの類似度を計算し、少なくとも2つの類似度の変化値の絶対値が小さいほど、第1文と第2文とが類似していると評価する。
【選択図】図1
Description
また、本発明の類似度評価装置、検索装置、類似度の評価方法、検索方法、及びプログラムによれば、自然言語で表される入力文と、比較対象となる文と、の類似度を評価し、入力文に類似する文を精度よく検索することができる、という効果が得られる。
第1実施形態では、自然言語で記述された第1文及び第2文の2つの文を入力とし、2つの文の類似度を数値化してスコアとして出力する類似度評価装置100について説明する。
図1は、類似度評価装置100のシステム構成例を示す図である。図1に示すように、類似度評価装置100は、CPUと、RAMと、後述する類似度評価処理ルーチンを実行するためのプログラムを記憶したROMと、を備えたコンピュータで構成され、機能的には次に示すように構成されている。
文解析部21は、第1文及び第2文の各文に対して言語処理を実行して、係り受け解析及びキーワード抽出を行う。
ベクトル生成部22は、文解析部21での第1文及び第2文の解析結果に基づいて、文同士の類似度を評価するための概念ベクトルを作成する。
計算部23は、ベクトル生成部22で生成したキーワードベクトル、文節ベクトル、及び係り受けベクトルに基づいて、キーワード同士の類似度、文節同士の類似度、及び文節の係り受け同士の類似度を計算する。この際、第1文と第2文のどちらの文を、類似度の評価を行いたい基準の文にするかによって類似度の計算結果が異なるが、前述したように、ここでは第1文を基準の文にして類似度を計算する。
評価部24は、計算部23で第1文に含まれる各々のキーワードに対して計算した3種類の類似度に基づいて、第1文と第2文との類似度を評価する。
次に、第1実施形態に係る類似度評価装置100の作用について説明する。
図4は、「PWの変更をしたい」を第1文、「パスワードを変えたらログインできない」を第2文とした場合の、第1実施形態に係る類似度評価装置100でのスコアSIM(S1,S2)の算出過程の一例を示した図である。
第1実施形態では、キーワード同士の類似度、キーワードを含む文節同士の類似度、及びキーワードを含む文節の係り受け同士の類似度に基づいて算出した類似度変化率の低下の度合いが少ない文同士ほど、各々の文の類似性が高いことを説明したが、換言すれば、これは、文に含まれるキーワードの中で、より粗い類似判定単位の粒度で類似度を比較しても類似度の低下の度合いが少ないキーワードほど、文の類似性の判定に与える影響が大きい重要なキーワードであることを示している。
図5は、キーワード評価装置200のシステム構成例を示す図である。図5のキーワード評価装置200のシステム構成が第1実施形態に係る図1の類似度評価装置100のシステム構成例と異なる点は、類似度評価部26がキーワード重要度評価部26Aに置き換えられ、それに伴い評価部24が評価部24Aに置き換えられた点である。
キーワード評価装置200は、類似する第1文及び第2文をそれぞれ入力部10で受け付けると、受け付けた第1文及び第2文を例えば記憶部30に格納する。そして、キーワード評価装置200は、CPUで図6に示すキーワード評価処理ルーチンを実行する。
第1実施形態に係る類似度評価装置100、及び第2実施形態に係るキーワード評価装置200では、文同士の異なる粒度における類似度変化率dws(w)及びdsd(w)を算出し、算出した類似度変化率dws(w)及びdsd(w)に基づいて、文同士の類似度、又は、文同士の類似度の判定に用いられるキーワードの重要度を評価した。
図7は、検索装置300のシステム構成例を示す図である。図7の検索装置300のシステム構成例が第1実施形態に係る図1の類似度評価装置100のシステム構成例と異なる点は、類似度評価部26がクエリ文類似度評価部26Bに置き換えられ、それに伴い評価部24が評価部24Bに置き換えられた点である。更に、検索装置300には検索部27が追加され、記憶部30に検索対象文DB30Aが予め構築される。
検索装置300は、自然言語で記述されたクエリ文を入力部10で受け付けると、受け付けたクエリ文を例えば記憶部30に格納する。そして、検索装置300は、CPUで図8に示す検索処理ルーチンを実行する。
20・・・演算部
21・・・文解析部
22・・・ベクトル生成部
23・・・計算部
24(24A、24B)・・・評価部
25・・・類似度変化率算出部
26・・・類似度評価部
26A・・・キーワード重要度評価部
26B・・・クエリ文類似度評価部
27・・・検索部
30・・・記憶部
40・・・出力部
100・・・類似度評価装置
200・・・キーワード評価装置
300・・・検索装置
dsd、dws・・・類似度変化率
30A・・・検索対象文DB
Claims (12)
- 入力された第1文から抽出された第1のキーワードと、入力された第2文の中で前記第1のキーワードと類似するキーワードである第2のキーワードと、に基づき、キーワード同士の類似度、キーワードを含む文節同士の類似度、及びキーワードを含む文節の係り受け同士の類似度のうち少なくとも2つの類似度を計算する計算部と、
前記計算部で計算された前記少なくとも2つの類似度の変化値の絶対値が小さいほど、前記第1のキーワードの重要度を高く評価する評価部と、
を含むキーワード評価装置。 - 前記評価部は、前記計算部で計算された前記キーワード同士の類似度と前記文節同士の類似度との変化値の絶対値が小さいほど、前記第1のキーワードの重要度を高く評価し、又は、前記計算部で計算された前記文節同士の類似度と前記文節の係り受け同士の類似度との変化値の絶対値が小さいほど、前記第1のキーワードの重要度を高く評価する
請求項1記載のキーワード評価装置。 - 入力された第1文に含まれる単語と入力された第2文に含まれる単語との組み合わせの中で類似度が最も高い組み合わせにおける前記第1文に含まれる単語を第1のキーワード、前記第2文に含まれる単語を第2のキーワードとし、キーワード同士の類似度、キーワードを含む文節同士の類似度、及びキーワードを含む文節の係り受け同士の類似度のうち少なくとも2つの類似度を計算する計算部と、
前記計算部で計算された前記少なくとも2つの類似度の変化値の絶対値が小さいほど、前記第1文と前記第2文とが類似していると評価する評価部と、
を含む類似度評価装置。 - 前記評価部は、前記計算部で計算された前記キーワード同士の類似度と前記文節同士の類似度との変化値の絶対値が小さいほど、前記第1文と前記第2文とが類似していると評価し、又は、前記計算部で計算された前記文節同士の類似度と前記文節の係り受け同士の類似度との変化値の絶対値が小さいほど、前記第1文と前記第2文とが類似していると評価する
請求項3記載の類似度評価装置。 - 前記計算部は、入力された前記第1文に含まれる単語の各々について、前記第1文に含まれる単語を第1のキーワード、前記第1文に含まれる単語との類似度が最も高い、前記第2文に含まれる単語を第2のキーワードとし、前記キーワード同士の類似度、前記キーワードを含む文節同士の類似度、及び前記キーワードを含む文節の係り受け同士の類似度を計算し、
前記評価部は、前記第1文に含まれる単語の各々について、前記第1のキーワードと前記第2のキーワードとの類似度と、前記キーワード同士の類似度と前記文節同士の類似度との変化値の絶対値と、前記文節同士の類似度と前記文節の係り受け同士の類似度との変化値の絶対値とに基づいて算出されるスコアの平均値に基づいて、前記第1文と前記第2文とが類似しているかを評価する
請求項4記載の類似度評価装置。 - 予め用意された複数の検索対象文毎に、前記検索対象文に含まれる各キーワードを表すキーワードベクトル、前記各キーワードについてのキーワードを含む文節を表す文節ベクトル、及び前記各キーワードについてのキーワードを含む前記文節の係り先を含む係り受け関係を表す係り受けベクトルを記憶する記憶部と、
前記複数の検索対象文毎に、入力されたクエリ文に含まれるキーワードと前記検索対象文に含まれるキーワードとの組み合わせの中で類似度が最も高い組み合わせにおける前記クエリ文に含まれるキーワードを第1のキーワード、前記検索対象文に含まれるキーワードを第2のキーワードとし、キーワードベクトルに基づくキーワード同士の類似度、文節ベクトルに基づくキーワードを含む文節同士の類似度、及び係り受けベクトルに基づくキーワードを含む文節の係り受け同士の類似度のうち少なくとも2つの類似度を前記複数の検索対象文毎に計算する計算部と、
前記複数の検索対象文毎に、前記計算部で計算された前記少なくとも2つの類似度の変化値の絶対値が小さいほど、前記クエリ文と前記検索対象文とが類似していると評価する評価部と、
前記評価部による評価結果に基づいて、前記クエリ文に類似する検索対象文を検索する検索部と、
を含む検索装置。 - 入力された第1文から抽出された第1のキーワードと、入力された第2文の中で前記第1のキーワードと類似するキーワードである第2のキーワードと、に基づき、キーワード同士の類似度、キーワードを含む文節同士の類似度、及びキーワードを含む文節の係り受け同士の類似度のうち少なくとも2つの類似度を計算し、
前記少なくとも2つの類似度の変化値の絶対値が小さいほど、前記第1のキーワードの重要度を高く評価する
キーワードの評価方法。 - 入力された第1文に含まれる単語と入力された第2文に含まれる単語との組み合わせの中で類似度が最も高い組み合わせにおける前記第1文に含まれる単語を第1のキーワード、前記第2文に含まれる単語を第2のキーワードとし、キーワード同士の類似度、キーワードを含む文節同士の類似度、及びキーワードを含む文節の係り受け同士の類似度のうち少なくとも2つの類似度を計算し、
前記少なくとも2つの類似度の変化値の絶対値が小さいほど、前記第1文と前記第2文とが類似していると評価する
文の類似度の評価方法。 - 予め用意された複数の検索対象文毎に、前記検索対象文に含まれる各キーワードを表すキーワードベクトル、前記各キーワードについてのキーワードを含む文節を表す文節ベクトル、及び前記各キーワードについてのキーワードを含む前記文節の係り先を含む係り受け関係を表す係り受けベクトルを記憶し、
前記複数の検索対象文毎に、入力されたクエリ文に含まれるキーワードと前記検索対象文に含まれるキーワードとの組み合わせの中で類似度が最も高い組み合わせにおける前記クエリ文に含まれるキーワードを第1のキーワード、前記検索対象文に含まれるキーワードを第2のキーワードとし、キーワードベクトルに基づくキーワード同士の類似度、文節ベクトルに基づくキーワードを含む文節同士の類似度、及び係り受けベクトルに基づくキーワードを含む文節の係り受け同士の類似度のうち少なくとも2つの類似度を前記複数の検索対象文毎に計算し、
前記複数の検索対象文毎に、計算した前記少なくとも2つの類似度の変化値の絶対値が小さいほど、前記クエリ文と前記検索対象文とが類似していると評価し、
前記評価に基づいて、前記クエリ文に類似する検索対象文を検索する
文の検索方法。 - 請求項1又は請求項2記載のキーワード評価装置の各部としてコンピュータを機能させるためのプログラム。
- 請求項3〜請求項5の何れか1項に記載の類似度評価装置の各部としてコンピュータを機能させるためのプログラム。
- 請求項6記載の検索装置の各部としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016093227A JP6433937B2 (ja) | 2016-05-06 | 2016-05-06 | キーワード評価装置、類似度評価装置、検索装置、評価方法、検索方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016093227A JP6433937B2 (ja) | 2016-05-06 | 2016-05-06 | キーワード評価装置、類似度評価装置、検索装置、評価方法、検索方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017201478A true JP2017201478A (ja) | 2017-11-09 |
JP6433937B2 JP6433937B2 (ja) | 2018-12-05 |
Family
ID=60264626
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016093227A Active JP6433937B2 (ja) | 2016-05-06 | 2016-05-06 | キーワード評価装置、類似度評価装置、検索装置、評価方法、検索方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6433937B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6689466B1 (ja) * | 2019-01-31 | 2020-04-28 | 三菱電機株式会社 | 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム |
WO2020170906A1 (ja) * | 2019-02-20 | 2020-08-27 | 日本電信電話株式会社 | 生成装置、学習装置、生成方法及びプログラム |
WO2020261479A1 (ja) * | 2019-06-27 | 2020-12-30 | 株式会社島津製作所 | 関連文書を検索して表示する方法およびシステム |
US11630824B2 (en) | 2018-10-16 | 2023-04-18 | Shimadzu Corporation | Document search method and document search system |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001084252A (ja) * | 1999-09-10 | 2001-03-30 | Mitsubishi Electric Corp | 類似文書検索システム及び方法並びに類似文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2001312501A (ja) * | 2000-04-28 | 2001-11-09 | Mitsubishi Electric Corp | 文書自動分類システム、文書自動分類方法、及び文書自動分類プログラムを記録したコンピュータ読み取り可能な記録媒体 |
WO2009017135A1 (ja) * | 2007-08-02 | 2009-02-05 | Nec Corporation | 情報提供支援装置および情報提供支援方法 |
JP2015197722A (ja) * | 2014-03-31 | 2015-11-09 | 大日本印刷株式会社 | 文書検索装置、文書検索方法、プログラム、及び、文書検索システム |
-
2016
- 2016-05-06 JP JP2016093227A patent/JP6433937B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001084252A (ja) * | 1999-09-10 | 2001-03-30 | Mitsubishi Electric Corp | 類似文書検索システム及び方法並びに類似文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2001312501A (ja) * | 2000-04-28 | 2001-11-09 | Mitsubishi Electric Corp | 文書自動分類システム、文書自動分類方法、及び文書自動分類プログラムを記録したコンピュータ読み取り可能な記録媒体 |
WO2009017135A1 (ja) * | 2007-08-02 | 2009-02-05 | Nec Corporation | 情報提供支援装置および情報提供支援方法 |
US20110023122A1 (en) * | 2007-08-02 | 2011-01-27 | Nec Corporation | Information providing support device and information providing support method |
JP2015197722A (ja) * | 2014-03-31 | 2015-11-09 | 大日本印刷株式会社 | 文書検索装置、文書検索方法、プログラム、及び、文書検索システム |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11630824B2 (en) | 2018-10-16 | 2023-04-18 | Shimadzu Corporation | Document search method and document search system |
JP6689466B1 (ja) * | 2019-01-31 | 2020-04-28 | 三菱電機株式会社 | 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム |
WO2020157887A1 (ja) * | 2019-01-31 | 2020-08-06 | 三菱電機株式会社 | 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム |
WO2020170906A1 (ja) * | 2019-02-20 | 2020-08-27 | 日本電信電話株式会社 | 生成装置、学習装置、生成方法及びプログラム |
JP2020135457A (ja) * | 2019-02-20 | 2020-08-31 | 日本電信電話株式会社 | 生成装置、学習装置、生成方法及びプログラム |
JP7103264B2 (ja) | 2019-02-20 | 2022-07-20 | 日本電信電話株式会社 | 生成装置、学習装置、生成方法及びプログラム |
WO2020261479A1 (ja) * | 2019-06-27 | 2020-12-30 | 株式会社島津製作所 | 関連文書を検索して表示する方法およびシステム |
JPWO2020261479A1 (ja) * | 2019-06-27 | 2020-12-30 | ||
JP7251625B2 (ja) | 2019-06-27 | 2023-04-04 | 株式会社島津製作所 | 関連文書を検索して表示する方法およびシステム |
Also Published As
Publication number | Publication date |
---|---|
JP6433937B2 (ja) | 2018-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Devika et al. | Sentiment analysis: a comparative study on different approaches | |
US9280535B2 (en) | Natural language querying with cascaded conditional random fields | |
JP5403696B2 (ja) | 言語モデル生成装置、その方法及びそのプログラム | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
JP6433937B2 (ja) | キーワード評価装置、類似度評価装置、検索装置、評価方法、検索方法、及びプログラム | |
US20150199609A1 (en) | Self-learning system for determining the sentiment conveyed by an input text | |
JP2015060243A (ja) | 検索装置、検索方法、およびプログラム | |
US10394961B2 (en) | Foreign language sentence creation support apparatus, method, and program | |
JP2011118689A (ja) | 検索方法及びシステム | |
JP6729095B2 (ja) | 情報処理装置及びプログラム | |
US20150205860A1 (en) | Information retrieval device, information retrieval method, and information retrieval program | |
JP2019082931A (ja) | 検索装置、類似度算出方法、およびプログラム | |
Pirovani et al. | Portuguese named entity recognition using conditional random fields and local grammars | |
JPWO2010109594A1 (ja) | 文書検索装置、文書検索システム、文書検索プログラム、および文書検索方法 | |
JP2009295052A (ja) | 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム | |
Wijewickrema | Impact of an ontology for automatic text classification | |
JP2012074087A (ja) | 文書検索システム、文書検索プログラム、および文書検索方法 | |
KR102519955B1 (ko) | 토픽 키워드의 추출 장치 및 방법 | |
US11842152B2 (en) | Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program | |
JP6375367B2 (ja) | 反論生成方法,反論生成システム | |
JP4478042B2 (ja) | 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置 | |
JP5506482B2 (ja) | 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム | |
JP5320326B2 (ja) | 記号変換装置、記号変換方法、記号変換プログラム | |
JP2004334602A (ja) | 文書検索装置、文書検索処理プログラム及び記録媒体 | |
CN111259159A (zh) | 数据挖掘方法、装置和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171005 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180828 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180831 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181017 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181030 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181107 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6433937 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |