JP7100542B2 - 検索支援装置および検索支援方法 - Google Patents

検索支援装置および検索支援方法 Download PDF

Info

Publication number
JP7100542B2
JP7100542B2 JP2018162141A JP2018162141A JP7100542B2 JP 7100542 B2 JP7100542 B2 JP 7100542B2 JP 2018162141 A JP2018162141 A JP 2018162141A JP 2018162141 A JP2018162141 A JP 2018162141A JP 7100542 B2 JP7100542 B2 JP 7100542B2
Authority
JP
Japan
Prior art keywords
sentences
annotation
sentence
search
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018162141A
Other languages
English (en)
Other versions
JP2020035236A (ja
Inventor
淳 細矢
隆史 三木
祐輝 春野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2018162141A priority Critical patent/JP7100542B2/ja
Publication of JP2020035236A publication Critical patent/JP2020035236A/ja
Application granted granted Critical
Publication of JP7100542B2 publication Critical patent/JP7100542B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、検索支援装置および検索支援方法に関するものである。
全く同じ単語を含む文章であっても、その文章における各単語の位置付けなどにより、意味するところは大きく違ってくる可能性がある。
そこで、そのような文章を情報処理対象とする場合、予めアノテーションを施しておくことで、各文章の意図、主旨を的確に踏まえた情報処理を図ろうとする動きもある。
ところで、文章に対する所定の情報処理を行う従来技術としては、例えば、自然言語文を入力するための入力部と、該入力部から入力された翻訳対象となる原文を記憶する原文記憶部と、翻訳処理に使用する知識情報を収容した翻訳辞書部と、該翻訳辞書部の内容を用いて前記入力された原文の翻訳処理を実行する翻訳部と、該翻訳部による翻訳処理の結果得られた訳文を記憶する訳文記憶部と、前記原文および訳文を表示する表示部と、前記各構成部を制御するとともに、前記表示部で表示された原文または訳文の編集処理を行なう編集制御部とから成り、前記翻訳部は原文の文型を認定し、認定した文型情報を出力することを特徴とする機械翻訳装置(特許文献1参照)などが提案されている。
また他にも、アノテーションに関連する従来技術として、情報検索装置、情報検索方法及びプログラム(特許文献2参照)や、アノテーション補助装置及びそのためのコンピュータープログラム(特許文献3参照)なども提案されている。
特開平6-295309号公報 特開2005-11079号公報 特開2016-136341号公報
例えば、複数のキーワードをキーとしたテキスト検索を行う場合、検索対象の母集団がアノテーション未実行の文章群であるよりも、アノテーション実行後の文章群である方が、検索効率は高くなる傾向にある。
例えば、或る者が、“人は魚を鑑賞する”という事象を意識し、“人”と“魚”という2つのキーワードを用いた文章検索を行ったとする。
検索対象の母集団がアノテーション未実行の文章群であった場合、単純に、単語として“人”と“魚”を両方含む文章が全て検索結果となって出力されることになる。具体的には、“人”と“魚”という単語さえ含まれていれば、“人が魚を鑑賞する”、“魚が人を鑑賞する”、“人と魚は鑑賞する”、“人の魚を鑑賞する”、といった様々な文型の文章全てが検索結果となる。
一方、検索対象の母集団がアノテーション実行後の文章群で、かつ、“人”が主語で“魚”が目的語であるとの指定を踏まえたアノテーション検索を行った場合、上述の具体例として示した文章のうち、“人が魚を鑑賞する”、のみが検索結果となる。すなわち、検
索効率は明らかに高くなる。
このように、文章群を母集団とした検索にあたって、当該文章群の文章それぞれにアノテーションを施しておくことは意義ある事である。ところが、現状におけるアノテーションは、人手により、各文章の単語それぞれについて行う必要があり、上述の母集団の規模によっては膨大な作業コストが必要となってしまう。
そこで本発明の目的は、効率的なアノテーションおよび当該アノテーションの結果を用いた精度良好な文章検索を可能とする技術を提供することにある。
上記課題を解決する本発明の検索支援装置は、検索対象の母集団を成す文章各々の品詞分析結果を記憶する記憶部と、前記文章各々に関し、前記品詞分析結果が示す各単語の品詞に基づき、生成しうる文型パターンを特定する処理と、前記文章各々に対し前記文型パターン各々を照合し、当該文章の構成に該当する複数の文型パターンをアノテーションルールの候補として特定する処理と、前記特定したアノテーションルールの候補に基づき、前記文章各々を対象にしたアノテーションの試行を行って、前記文章各々に該当するアノテーションルール候補の絞り込みを行う処理と、前記文章各々に関して、前記絞り込みを経たアノテーションルールの候補のうち、該当文章数が所定基準よりも多いもの又は所定数以上の要素に使用されている単語が使われているものを、前記文章各々に関して適用出来るアノテーションルールとして選定する処理と、前記選定したアノテーションルールを、前記照合に際して対象となった文章に適用してアノテーションを行い、複数のアノテーション済み文章を生成する処理と、所定装置から受けた検索要求に対し、前記選定したアノテーションルールの一覧を提示し、前記一覧の中でユーザ指定を受けたアノテーションルールに基づき、前記アノテーション済み文章から該当文章を検索結果として抽出し、当該検索結果を前記装置に出力する処理と、を実行する演算部と、を含むことを特徴とする。
また、本発明の検索支援方法は、検索対象の母集団を成す文章各々の品詞分析結果を記憶する記憶部を備える情報処理装置が、前記文章各々に関し、前記品詞分析結果が示す各単語の品詞に基づき、生成しうる文型パターンを特定する処理と、前記文章各々に対し前記文型パターン各々を照合し、当該文章の構成に該当する複数の文型パターンをアノテーションルールの候補として特定する処理と、前記特定したアノテーションルールの候補に基づき、前記文章各々を対象にしたアノテーションの試行を行って、前記文章各々に該当するアノテーションルール候補の絞り込みを行う処理と、前記文章各々に関して、前記絞り込みを経たアノテーションルールの候補のうち、該当文章数が所定基準よりも多いもの又は所定数以上の要素に使用されている単語が使われているものを、前記文章各々に関して適用出来るアノテーションルールとして選定する処理と、前記選定したアノテーションルールを、前記照合に際して対象となった文章に適用してアノテーションを行い、複数のアノテーション済み文章を生成する処理と、所定装置から受けた検索要求に対し、前記選定したアノテーションルールの一覧を提示し、前記一覧の中でユーザ指定を受けたアノテーションルールに基づき、前記アノテーション済み文章から該当文章を検索結果として抽出し、当該検索結果を前記装置に出力する処理と、を実行することを特徴とする。
本発明によれば、効率的なアノテーションおよび当該アノテーションの結果を用いた精度良好な文章検索が可能となる。
本実施形態の検索支援装置を含むネットワーク構成図である。 本実施形態における検索支援装置のハードウェア構成例を示す図である。 本実施形態の検索対象文書のデータ構成例を示す図である。 本実施形態の解析結果のデータ構成例を示す図である。 本実施形態のアノテーションルールのデータ構成例を示す図である。 本実施形態のアノテーション済み文書のデータ構成例を示す図である。 本実施形態における検索支援方法の概念例を示す図である。 本実施形態における検索支援方法のフロー例を示す図である。 本実施形態における候補絞り込み概念の例1を示す図である。 本実施形態における候補絞り込み概念の例2を示す図である。 本実施形態における出力例1を示す図である。 本実施形態における出力例2を示す図である。
---ネットワーク構成---
以下に本発明の実施形態について図面を用いて詳細に説明する。図1は、本実施形態の検索支援装置100を含むネットワーク構成図である。図1に示す検索支援装置100は、効率的なアノテーションおよび当該アノテーションの結果を用いた精度良好な文章検索を可能とするコンピュータ装置である。
本実施形態の検索支援装置100としては、例えば、製品やサービス等に対するユーザからの各種問い合わせに対応する、コールセンターシステムやチャットボットシステムに対し、問いに対する回答を適宜に導く検索機能の提供装置を想定できる。
こうした検索支援装置100は、インターネットなどの適宜なネットワーク10を介して、ユーザ端末200と通信可能に結ばれている。
本実施形態の検索支援装置100は、例えば、上述のコールセンターシステムやチャットボットシステムの構成の一部であるとする。勿論、本実施形態の検索支援装置100が、コールセンターシステムやチャットボットシステムと別の構成となって、ネットワーク10を介して機能提供するとしてもよい。
また、ユーザ端末200は、検索支援装置100に対して検索クエリを送信し、適宜な回答を受信するための端末である。よって具体的には、上述の製品やサービス等のユーザが操作する情報処理装置となる。
---ハードウェア構成---
図2に、本実施形態の検索支援装置100のハードウェア構成例を示す。また、本実施形態の検索支援装置100のハードウェア構成は以下の如くとなる。
すなわち、検索支援装置100は、SSD(Solid State Drive)やハードディスクドライブなど適宜な不揮発性記憶素子で構成される記憶部101、RAMなど揮発性記憶素子で構成されるメモリ103、記憶部101に保持されるプログラム102をメモリ103に読み出すなどして実行し装置自体の統括制御を行なうとともに各種判定、演算及び制御処理を行なうCPUなどの演算部104、ユーザからのキー入力や音声入力を受け付ける入力部105、処理データの表示を行うディスプレイ等の出力部106、ネットワーク10と接続し、ユーザ端末200など他装置との通信処理を担う通信部107、を備える。
なお、記憶部101内には、本実施形態の検索支援装置として必要な機能を実装する為のプログラム102に加えて、検索対象文書125、解析結果126、アノテーションルール127、および、アノテーション済み文書128、が少なくとも記憶されている。ただし、これら検索対象文書125、解析結果126、アノテーションルール127、および、アノテーション済み文書128についての詳細は後述するものとする。
---データ構造例---
続いて、本実施形態の検索支援装置100が用いるテーブル類について説明する。図3に、本実施形態における検索対象文書125の一例を示す。
検索対象文書125は、いわゆるFAQ(Frequently Asked Question)における回答集に該当する文書群である。
そのデータ構造は、例えば、文書IDをキーとして、当該文書のファイル名、および、格納先、といったデータを紐付けたレコードの集合体である。
また図4に、本実施形態の解析結果126のデータ構成例を示す。解析結果126は、上述の検索対象文書125の各文書から分割した文章に対し、形態素解析(品詞分析)を行って得た単語群を格納したテーブルである。
そのデータ構造は、例えば、文書IDおよび文章IDをキーとして、当該文章から得られた各単語および当該単語の品詞、といったデータを紐付けたレコードの集合体である。
また図5に、本実施形態におけるアノテーションルール127の一例を示す。本実施形態のアノテーションルール127は、検索支援装置100が、上述の検索対象文書125の各文書を構成する文章各々に関し、その品詞分析結果が示す各単語の品詞に基づき、生成しうる文型パターンを特定して、上述の文章各々に対し前述の文型パターン各々を照合し、当該文章の構成に該当する複数の文型パターンとして特定したもの、を格納したテーブルである。
そのデータ構造は、アノテーションルールを一意に特定するルールIDをキーとして、当該アノテーションルールの格納先を紐付けたレコードの集合体である。
また図6に、本実施形態におけるアノテーション済み文書128の一例を示す。本実施形態のアノテーション済み文書128は、上述のアノテーションルール127の各アノテーションルール、すなわち文型パターンの各々を、上述の照合の対象となった文章に適用してアノテーションを行って生成したアノテーション済み文章それぞれを格納したテーブルである。
そのデータ構造は、上述の検索対象文書125における対応文書と共通する文書IDをキーとして、当該文書を構成する各文章に関して得たアノテーション済み文書のファイル名、および、格納先、といったデータを紐付けたレコードの集合体である。
---検索支援方法の概念およびフローについて---
以下、本実施形態における検索支援方法の実際手順について図に基づき説明する。以下で説明する検索支援方法に対応する各種動作は、検索支援装置100がメモリ等に読み出して実行するプログラムによって実現される。そして、このプログラムは、以下に説明される各種の動作を行うためのコードから構成されている。
図7は、本実施形態における検索支援方法の概念例を示す図であり、図8は本実施形態における検索支援方法のフロー例を示す図である。
なお、本実施形態におけるアノテーションとは、検索対象文書125の各文書における文章それぞれに註釈を付与することを意味する。特に、いわゆる5文型の各文型パターンを踏まえて、当該文章における係り受けのうち、文の要素である、S:主語、V:述語、O:目的語、および、C:補語、の各註釈を、文章における各単語に付与し、アノテーション済み文章を生成することに着目している。
そこでまず、検索支援装置100は、検索対象文書125の各文書を文章単位に分割し、当該文章に関して形態素解析(品詞分析)を実行する(s10)。なお、文書における文章の分割は、句読点間で文章を分割することで実行する。
検索支援装置100は、上述のs10における形態素解析の結果、各文章から単語群を抽出し、この単語群を含むレコードを解析結果126に格納する(s11)。前述のレコードは、該当文書および該当文章を一意に特定する文書IDおよび文章IDをキーとして、当該文章から得られた各単語および当該単語の品詞、といったデータを紐付けたものとなる。
具体的には、上述の検索対象文書125のうち所定の文書が、「私は、魚を食べる。魚は、私を食べる。魚は、エビを食べる。私は、魚にえさを与える。私は、エビをえさにする。」というものであったとする。
その場合、この文書から得られる文章は、文章1:「私は、魚を食べる」、文章2:「魚は、私を食べる」、文章3:「魚は、エビを食べる」、文章4:「私は、魚にえさを与える」、文章5:「私は、エビをえさにする」、の5つの文章となる。
また、これら5つの文章それぞれに対する形態素解析により得られる単語群は、文章1および文章2において、名詞である「私」および「魚」と、動詞である「食べる」、の3単語であり、文章3において、名詞である「私」および「エビ」と、動詞である「食べる」、の3単語であり、文章4において、名詞である「私」、「魚」、および「えさ」と、動詞である「与える」、の4単語であり、文章5において、名詞である「私」、「エビ」および「魚」と、動詞である「する」、の4単語となる。
続いて、検索支援装置100は、上述の解析結果126である各文章の単語群における所定品詞の単語の組合せ可能なパターンに基づき、生成しうる文型パターンをアノテーションルール候補1261として特定し(s12)、例えばメモリ103に保持する。
上述の具体例を踏まえると、例えば、上述の「文章1」の名詞のうち「私」を“n1”、「魚」を“n2”、また、動詞である「食べる」を“v1”とすれば、生成しうる文型パターン(いわゆる英文法における1~5文型)は、以下のとおりである。
1文型(S+V)・・・全2パターン
Rule1-1-1 S(n1)、V(v1)
Rule1-1-2 S(n2)、V(v1)
2文型(S+V+C)・・・全6パターン→重複削除で4パターン
Rule1-2-1 S(n1)、V(v1)・・・「Rule1-1-1」と重複
Rule1-2-2 S(n2)、V(v1)・・・「Rule1-1-2」と重複
Rule1-2-3 C(n1)、V(v1)
Rule1-2-4 C(n2)、V(v1)
Rule1-2-5 S(n1)、V(v1)、C(n2)
Rule1-2-6 S(n2)、V(v1)、C(n1)
3文型(S+V+O)・・・全6パターン→重複削除で4パターン
Rule1-3-1 S(n1)、V(v1)・・・「Rule1-1-1」と重複
Rule1-3-2 S(n2)、V(v1)・・・「Rule1-1-2」と重複
Rule1-3-3 O(n1)、V(v1)
Rule1-3-4 O(n2)、V(v1)
Rule1-3-5 S(n1)、V(v1)、O(n2)
Rule1-3-6 S(n2)、V(v1)、O(n1)
4文型(S+V+IO+DO)・・・12パターン → 重複削除で10パターン
Rule1-4-1 S(n1)、V(v1)・・・「Rule1-1-1」と重複
Rule1-4-2 S(n2)、V(v1)・・・「Rule1-1-2」と重複
Rule1-4-3 IO(n1)、V(v1)
Rule1-4-4 IO(n2)、V(v1)
Rule1-4-5 DO(n1)、V(v1)
Rule1-4-6 DO(n2)、V(v1)
Rule1-4-7 S(n1)、V(v1)、IO(n2)
Rule1-4-8 S(n2)、V(v1)、IO(n1)
Rule1-4-9 S(n1)、V(v1)、DO(n2)
Rule1-4-10 S(n2)、V(v1)、DO(n1)
Rule1-4-11 V(v1)、IO(n1)、DO(n2)
Rule1-4-12 V(v1)、IO(n2)、DO(n1)
5文型(S+V+O+C)・・・12パターン→重複削除で2パターン
Rule1-5-1 S(n1)、V(v1)・・・「Rule1-1-1」と重複
Rule1-5-2 S(n2)、V(v1)・・・「Rule1-1-2」と重複
Rule1-5-3 O(n1)、V(v1)・・・「Rule1-3-3」と重複
Rule1-5-4 O(n2)、V(v1)・・・「Rule1-3-4」と重複
Rule1-5-5 C(n1)、V(v1)・・・「Rule1-2-3」と重複
Rule1-5-6 C(n2)、V(v1)・・・「Rule1-2-4」と重複
Rule1-5-7 S(n1)、V(v1)、O(n2)・・・「Rule1-3-5」と重複
Rule1-5-8 S(n2)、V(v1)、O(n1)・・・「Rule1-3-6」と重複
Rule1-5-9 S(n1)、V(v1)、C(n2)・・・「Rule1-2-5」と重複
Rule1-5-10 S(n2)、V(v1)、C(n1)・・・「Rule1-2-6」と重複
Rule1-5-11 V(v1)、O(n1)、C(n2)
Rule1-5-12 V(v1)、O(n2)、C(n1)
続いて、検索支援装置100は、上述のs12で得たアノテーションルール候補に基づき、各文章を対象にしたアノテーションの試行を行う(s13)。
具体的には、上述の文章のうち「文章1」を対象に処理を行ったケースについて示す。この場合、文章1「私は、魚を食べる」のうち、「私」は主語、「魚」は目的語、「食べる」は動詞である。よって、名詞としては、「私」を“n1”、「魚」を“n2”とし、動詞としては、「食べる」を“v1”とすれば、検索支援装置100は、こうした文章1の品詞構成と一致するか否かを各文型パターンについて照合することとなる。またその結果は、以下の通りとなる。
<1文型(S+V)・・・全2パターン>
該当 Rule1-1-1 S(n1)、V(v1)
非該当 Rule1-1-2 S(n2)、V(v1)・・・「魚」は主語ではない。
<2文型(S+V+C)・・・ 4パターン>
非該当 Rule1-2-3 C(n1)、V(v1)・・・「私」は補語ではない。
非該当 Rule1-2-4 C(n2)、V(v1)・・・「魚」は主語ではない。
非該当 Rule1-2-5 S(n1)、V(v1)、C(n2)・・・「魚」は補語ではない。
非該当 Rule1-2-6 S(n2)、V(v1)、C(n1)・・・「魚」は主語ではない。
<3文型(S+V+O)・・・4パターン>
非該当 Rule1-3-3 O(n1)、V(v1)・・・「私」は目的語ではない。
該当 Rule1-3-4 O(n2)、V(v1)
該当 Rule1-3-5 S(n1)、V(v1)、O(n2)
非該当 Rule1-3-6 S(n2)、V(v1)、O(n1)・・・「魚」は主語ではない。
<4文型(S+V+IO+DO)・・・10パターン>
非該当 Rule1-4-3 IO(n1)、V(v1)・・・「私」は目的語ではない。
該当 Rule1-4-4 IO(n2)、V(v1)
非該当 Rule1-4-5 DO(n1)、V(v1)・・・「私」は目的語ではない。
該当 Rule1-4-6 DO(n2)、V(v1)
該当 Rule1-4-7 S(n1)、V(v1)、IO(n2)
非該当 Rule1-4-8 S(n2)、V(v1)、IO(n1)・・・「私」は目的語ではない。
該当 Rule1-4-9 S(n1)、V(v1)、DO(n2)
非該当 Rule1-4-10 S(n2)、V(v1)、DO(n1)・・・「私」は目的語ではない。
非該当 Rule1-4-11 V(v1)、IO(n1)、DO(n2)・・・「私」は目的語ではない。
非該当 Rule1-4-12 V(v1)、IO(n2)、DO(n1)・・・「私」は目的語ではない。
<5文型(S+V+O+C)・・・2パターン>
非該当 Rule1-5-11 V(v1)、O(n1)、C(n2)・・・「私」は目的語ではない。
非該当 Rule1-5-12 V(v1)、O(n2)、C(n1)・・・「私」は補語ではない。
上述の結果において「該当」のものを抽出すると、「文章1」に該当するアノテーションルール候補は、以下の7つに絞り込みできる。
・Rule1-1-1・・・S(n1)、V(v1)
・Rule1-3-4・・・O(n2)、V(v1)
・Rule1-3-5・・・S(n1)、V(v1)、O(n2)
・Rule1-4-4・・・IO(n2)、V(v1)
・Rule1-4-6・・・DO(n2)、V(v1)
・Rule1-4-7・・・S(n1)、V(v1)、IO(n2)
・Rule1-4-9・・・S(n1)、V(v1)、DO(n2)
続いて、検索支援装置100は、検索対象文書125の各文書の文章に関して、適用出
来るアノテーションルールの選定処理を行う(s14)。ここで選定したアノテーションルールは、記憶部101のアノテーションルール127に格納される。
この選定処理としては、ケース1:上述のs13で特定しs12で絞り込みを行ったアノテーションルール候補(すなわち“該当”となったもの)全てをアノテーションルールとする場合、ケース2:s13で“該当”となったアノテーションルール候補のうち該当文章数が所定基準より多いものをアノテーションルールとする場合、および、ケース3:s13で“該当”となったアノテーションルール候補のうち、所定数以上の品詞要素に使用されている単語が使われているものをアノテーションルールとする場合、の3ケースのうちいずれかを、検索支援装置100の運用者等の適宜なユーザの指示に基づいて選択実行することとする。
例えば、ケース2を採用する場合、検索支援装置100は、s13の実行に伴い、図9に示すように、文章単位×アノテーションルールの該当/非該当状況、のテーブル900を生成しメモリ103に保持しておく。また、検索支援装置100は、このテーブル900において、該当数が所定順位以上のアノテーションルール候補ルールを、アノテーションルールとして選定する。図9の例の場合、例えば、該当数が最大の「Rule1」をアノテーションルールとして選定することとなる。
なお、複数の文章を集約した「段落」や「章」、「節」、「項」といったグループの場合は、テーブル900における行表示が「文章」から「Paragraph(段落)」などに変更となる。
一方、ケース3を採用する場合、その背景としては、以下のものを想定している。すなわち、条件1:複数のキーワードによる検索実行の場合、結果が複数ある、条件2:各検索結果における、上述のキーワードの少なくともひとつの役割が異なっている、との2条件が揃う時、アノテーション検索の優位性がある。
例えば、文章1:私は魚を食べる、文章2:魚は私を食べる、の2文章が存在した場合、「私」、「魚」の検索条件だけでは、文章1、2の両文章が該当結果となる。
ところが、「私」が主語、「魚」が目的語、「私」が目的語、「魚」が主語、のように各単語の役割を付与して検索(アノテーション検索)することにより、該当結果としてはユーザが当初意図したものが得られることとなる。
従って検索精度を向上するため、他のアノテーションルールと役割が異なる単語を含むアノテーションルールを優先選定することを、ケース3の主眼としている。
そこでケース3を採用する場合、検索支援装置100は、s14に先立つs13の実行に伴い、図10に示すように、各文章の単語単位×アノテーションルールの使用/非使用状況、文の要素別集計、および、要素数のテーブル1000を生成しメモリ103に保持しておく。
また、s14における検索支援装置100は、このテーブル1000において、「文の要素別集計」欄の複数要素に値が存在しているため「要素数」欄の値が2以上、すなわち、該当単語が幅広い要素として使用されているアノテーションルール候補ルールを、アノテーションルールとして選定する。
図10の例の場合、例えば、文の要素別集計の値が、主語(S)、目的語(O)、補語(C)、の各要素に存在して「要素数」が「3」の「私」を使用している、「Rule1
」、「Rule2」、および「Rule3」を、また、文の要素別集計の値が、主語(S)および目的語(O)の各要素に存在して「要素数」が「2」の「魚」の単語を使用している、「Rule1」および「Rule2」を、アノテーションルールとして選定することとなる。
続いて、検索支援装置100は、上述のs13で選定したアノテーションルール、すなわち文型パターンを、そのアノテーションルール生成に際し照合対象とした文章に適用してアノテーションを行い、アノテーション済み文章を生成する(s15)。ここで各文章に関して生成したアノテーションルール済み文章は、記憶部101のアノテーションルール済み文章128に格納される。
続いて、検索支援装置100は、ユーザ端末200から受けた検索クエリに対し、例えば、当該検索クエリが含む複数の単語をキーに、検索対象文書125の文書群が含む文章のうち該当単語をいずれも含むものを特定し、当該文章に関してs14で得ているアノテーションルールの一覧(図11の画面1100)を返信する(s16)。
この場合、上述のユーザ端末200を操作しているユーザは、アノテーションルールの一覧中から、自身の意図にマッチするものを指定する。
検索支援装置100は、上述のユーザによるアノテーションルールの指定通知を、ユーザ端末200から受信する(s17)。
また、検索支援装置100は、s17でユーザ指定を受けたアノテーションルールに基づき生成された、アノテーション済み文章128における該当文章を検索結果として抽出し、当該検索結果(図12の画面1200)をユーザ端末200に出力し(s18)、処理を終了する。
以上、本発明を実施するための最良の形態などについて具体的に説明したが、本発明はこれに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能である。
こうした本実施形態によれば、効率的なアノテーションおよび当該アノテーションの結果を用いた精度良好な文章検索を可能となる。
本明細書の記載により、少なくとも次のことが明らかにされる。すなわち、本実施形態の検索支援装置において、前記演算部は、前記アノテーションルールの候補に関して、該当文章数が所定基準より多いものを選定する絞込を実行し、当該絞込を経た候補を以後の処理に用いるものである、ことを特徴とする。
これによれば、様々な文章に適用性のあるアノテーションルールを優先的に用いることが可能となり、ひいては、より効率的なアノテーションおよび当該アノテーションの結果を用いた精度良好な文章検索が可能となる。
また、本実施形態の検索支援装置において、前記演算部は、前記アノテーションルールの候補に関して、所定数以上の要素に使用されている単語が使われているものを選定する絞込を実行し、当該絞込を経た候補を以後の処理に用いるものである、としてもよい。
これによれば、文型パターンをにおける要素(主語、目的語、補語など)としてより多く用いられている単語が使われているアノテーションルールを優先的に用いることが可能となり、ひいては、より効率的なアノテーションおよび当該アノテーションの結果を用いた精度良好な文章検索が可能となる。
また、本実施形態の検索支援方法において、前記情報処理装置が、前記アノテーションルールの候補に関して、該当文章数が所定基準より多いものを選定する絞込を実行し、当該絞込を経た候補を以後の処理に用いる、としてもよい。
また、本実施形態の検索支援方法において、前記情報処理装置が、前記アノテーションルールの候補に関して、所定数以上の要素に使用されている単語が使われているものを選定する絞込を実行し、当該絞込を経た候補を以後の処理に用いる、としてもよい。
10 ネットワーク
100 検索支援装置
101 記憶部
102 プログラム
103 メモリ
104 演算部
105 入力部
106 出力部
107 通信部
125 情報
126 情報
127 情報
200 ユーザ端末

Claims (2)

  1. 検索対象の母集団を成す文章各々の品詞分析結果を記憶する記憶部と、
    前記文章各々に関し、前記品詞分析結果が示す各単語の品詞に基づき、生成しうる文型パターンを特定する処理と、前記文章各々に対し前記文型パターン各々を照合し、当該文章の構成に該当する複数の文型パターンをアノテーションルールの候補として特定する処理と、前記特定したアノテーションルールの候補に基づき、前記文章各々を対象にしたアノテーションの試行を行って、前記文章各々に該当するアノテーションルール候補の絞り込みを行う処理と、前記文章各々に関して、前記絞り込みを経たアノテーションルールの候補のうち、該当文章数が所定基準よりも多いもの又は所定数以上の要素に使用されている単語が使われているものを、前記文章各々に関して適用出来るアノテーションルールとして選定する処理と、前記選定したアノテーションルールを、前記照合に際して対象となった文章に適用してアノテーションを行い、複数のアノテーション済み文章を生成する処理と、所定装置から受けた検索要求に対し、前記選定したアノテーションルールの一覧を提示し、前記一覧の中でユーザ指定を受けたアノテーションルールに基づき、前記アノテーション済み文章から該当文章を検索結果として抽出し、当該検索結果を前記装置に出力する処理と、を実行する演算部と、
    を含むことを特徴とする検索支援装置。
  2. 検索対象の母集団を成す文章各々の品詞分析結果を記憶する記憶部を備える情報処理装置が、
    前記文章各々に関し、前記品詞分析結果が示す各単語の品詞に基づき、生成しうる文型パターンを特定する処理と、前記文章各々に対し前記文型パターン各々を照合し、当該文章の構成に該当する複数の文型パターンをアノテーションルールの候補として特定する処理と、前記特定したアノテーションルールの候補に基づき、前記文章各々を対象にしたアノテーションの試行を行って、前記文章各々に該当するアノテーションルール候補の絞り込みを行う処理と、前記文章各々に関して、前記絞り込みを経たアノテーションルールの候補のうち、該当文章数が所定基準よりも多いもの又は所定数以上の要素に使用されている単語が使われているものを、前記文章各々に関して適用出来るアノテーションルールとして選定する処理と、前記選定したアノテーションルールを、前記照合に際して対象となった文章に適用してアノテーションを行い、複数のアノテーション済み文章を生成する処理と、所定装置から受けた検索要求に対し、前記選定したアノテーションルールの一覧を提示し、前記一覧の中でユーザ指定を受けたアノテーションルールに基づき、前記アノテーション済み文章から該当文章を検索結果として抽出し、当該検索結果を前記装置に出力する処理と、
    を実行することを特徴とする検索支援方法。
JP2018162141A 2018-08-30 2018-08-30 検索支援装置および検索支援方法 Active JP7100542B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018162141A JP7100542B2 (ja) 2018-08-30 2018-08-30 検索支援装置および検索支援方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018162141A JP7100542B2 (ja) 2018-08-30 2018-08-30 検索支援装置および検索支援方法

Publications (2)

Publication Number Publication Date
JP2020035236A JP2020035236A (ja) 2020-03-05
JP7100542B2 true JP7100542B2 (ja) 2022-07-13

Family

ID=69668301

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018162141A Active JP7100542B2 (ja) 2018-08-30 2018-08-30 検索支援装置および検索支援方法

Country Status (1)

Country Link
JP (1) JP7100542B2 (ja)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3617096B2 (ja) * 1994-05-25 2005-02-02 富士ゼロックス株式会社 関係表現抽出装置および関係表現検索装置、関係表現抽出方法、関係表現検索方法

Also Published As

Publication number Publication date
JP2020035236A (ja) 2020-03-05

Similar Documents

Publication Publication Date Title
Hu et al. Improved lexically constrained decoding for translation and monolingual rewriting
US11222167B2 (en) Generating structured text summaries of digital documents using interactive collaboration
KR101004515B1 (ko) 문장 데이터베이스로부터 문장들을 사용자에게 제공하는 컴퓨터 구현 방법 및 이 방법을 수행하기 위한 컴퓨터 실행가능 명령어가 저장되어 있는 유형의 컴퓨터 판독가능 기록 매체, 문장 데이터베이스로부터 확인 문장들을 검색하는 시스템이 저장되어 있는 컴퓨터 판독가능 기록 매체
US11468238B2 (en) Data processing systems and methods
US11481417B2 (en) Generation and utilization of vector indexes for data processing systems and methods
JP5998194B2 (ja) 対話型検索方法および装置
US20040117352A1 (en) System for answering natural language questions
US20160292153A1 (en) Identification of examples in documents
CN111984851B (zh) 医学资料搜索方法、装置、电子装置及存储介质
US11455357B2 (en) Data processing systems and methods
JPH11102374A (ja) データベースの文書表示方法およびその装置
US11681732B2 (en) Tuning query generation patterns
US6535873B1 (en) System and method for indexing electronic text
JPWO2003034279A1 (ja) 情報検索方法、情報検索プログラム、情報検索プログラムを記録したコンピュータ読み取り可能な記録媒体
KR102559806B1 (ko) 기계학습 기반의 지능형 법률 판례 검색 및 통합형 법률 서비스 방법 및 장치
US20140358522A1 (en) Information search apparatus and information search method
JP7100542B2 (ja) 検索支援装置および検索支援方法
KR101835994B1 (ko) 키워드 맵을 이용한 전자책 검색 서비스 제공 방법 및 장치
JP4435144B2 (ja) データ検索システム及びプログラム
US10783330B2 (en) Understanding natural language using tumbling-frequency phrase chain parsing
JPH06215035A (ja) テキスト検索装置
Gonçalo Oliveira et al. Using Lucene for Developing a Question-Answering Agent in Portuguese
JP2004318381A (ja) 類義性計算方法、類義性計算プログラム、類義性計算プログラムを記録したコンピュータ読み取り可能な記録媒体
Tanaka et al. Acquiring and generalizing causal inference rules from deverbal noun constructions
JP2006163645A (ja) 情報検索方法、情報検索装置、情報検索プログラム及びコンピュータで読み取り可能な記録媒体並びに記録した機器

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210118

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220628

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220701

R150 Certificate of patent or registration of utility model

Ref document number: 7100542

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150