JP7168411B2 - Information processing system and information processing method - Google Patents
Information processing system and information processing method Download PDFInfo
- Publication number
- JP7168411B2 JP7168411B2 JP2018202130A JP2018202130A JP7168411B2 JP 7168411 B2 JP7168411 B2 JP 7168411B2 JP 2018202130 A JP2018202130 A JP 2018202130A JP 2018202130 A JP2018202130 A JP 2018202130A JP 7168411 B2 JP7168411 B2 JP 7168411B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- information processing
- processing system
- tree structure
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、情報を処理する情報処理システムおよび情報処理方法に関する。 The present invention relates to an information processing system and an information processing method for processing information.
特許文献1は、意味カテゴリを学習して意味カテゴリ辞書を拡張し、仮に意味カテゴリの学習結果に誤りが生じても、その学習結果を修正することができる辞書作成装置を開示する。この辞書作成装置は、意味カテゴリ付与部による意味カテゴリの付与結果を考慮して、意味カテゴリ辞書に保持されている単語と意味カテゴリの対応関係を更新するとともに、意味カテゴリの抽出ルールを更新する意味カテゴリ学習部の他に、その意味カテゴリ学習部により更新された単語と意味カテゴリの対応関係を提示して、単語と意味カテゴリの対応関係の修正を受け付ける意味カテゴリ編集部を設ける。
しかしながら、上述した従来技術では、単語辞書DB内の語を増やすことが困難であるという課題がある。特許文献1の辞書作成装置は、キーワード検索のみで抽出したい関係を含む例文を検索する。したがって、新たな例文を追加する際には抽出ルールと意味カテゴリ辞書の両方を編集する必要がある。
However, the conventional technology described above has a problem that it is difficult to increase the number of words in the word dictionary DB. The dictionary creation device of
本発明は、未登録単語を効率的に収集することを目的とする。 An object of the present invention is to efficiently collect unregistered words.
本願において開示される情報処理システムおよび情報処理方法は、プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する情報処理システムおよび情報処理方法であって、所定の属性によりグループ化された単語群である単語グループを記憶する単語辞書データベースと、文中の単語間の文の要素に関する関係を示す木構造データについて前記単語グループを用いて抽象化した木構造パターンを記憶するルールデータベースと、を有し、前記プロセッサは、文の要素のうち前記単語グループが該当しない第1要素の単語および前記単語グループが該当しない第2要素の単語の組み合わせを含む対象文を取得する取得処理と、前記取得処理によって取得された対象文が、前記文の要素のうち前記単語グループが該当する第3要素を除外した特定の木構造パターンに該当するか否かを判断する判断処理と、前記判断処理によって前記特定の木構造パターンに該当すると判断された対象文から、前記第3要素の単語を抽出して、抽出結果を出力する抽出処理と、を実行することを特徴とする。 An information processing system and an information processing method disclosed in the present application are an information processing system and an information processing method having a processor that executes a program and a storage device that stores the program. a word dictionary database that stores word groups that are word groups that are grouped together; a rule database that stores a tree structure pattern abstracted using the word groups for tree structure data indicating relationships between words in a sentence regarding elements of sentences; wherein the processor acquires a target sentence including a combination of a first element word to which the word group does not apply and a second element word to which the word group does not apply among sentence elements; determining whether or not the target sentence acquired by the acquisition process corresponds to a specific tree structure pattern obtained by excluding a third element corresponding to the word group among the elements of the sentence; an extraction process of extracting words of the third element from the target sentence determined to correspond to the specific tree structure pattern and outputting an extraction result.
本発明の代表的な実施の形態によれば、未登録単語を効率的に収集することができる。前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。 According to the representative embodiment of the present invention, unregistered words can be efficiently collected. Problems, configurations, and effects other than those described above will be clarified by the following description of the embodiments.
本明細書では、単語辞書DB(Database)に対するメンテナンス例と、単語辞書DBへの単語の追加登録例と、に分けて説明する。単語辞書DBに対するメンテナンス例については、図1~図20を用い、単語辞書DBへの単語の追加登録例については、図21~図24を用いて説明する。 In this specification, an example of maintenance for a word dictionary DB (Database) and an example of additional registration of a word to the word dictionary DB will be described separately. Examples of maintenance for the word dictionary DB will be described with reference to FIGS. 1 to 20, and examples of additional registration of words to the word dictionary DB will be described with reference to FIGS. 21 to 24. FIG.
[1.単語辞書DBに対するメンテナンス例]
図1は、データベースのメンテナンス例1を示す説明図である。図1では、単語辞書DB101に対するメンテナンスについて説明する。単語辞書DB101は、1以上の単語グループを記憶する。単語グループは、所定の属性によりグループ化された単語群である。所定の属性とは、その単語グループが示す特徴である。所定の属性とは、具体的には、たとえば、日本語の文において主語の助詞が「が」格となる動詞や、特定の副詞と共起する動詞が挙げられる。そのほか、同義語や類義語であったり、特定の分野(投資、医療など)に用いられる単語であってもよい。図1では、一例として、単語グループGaは、「suppres」、「decrease」を含む同義語グループとする。
[1. Example of maintenance for word dictionary DB]
FIG. 1 is an explanatory diagram showing an example 1 of database maintenance. FIG. 1 illustrates maintenance of the
ルールDB102は、ルールを示す木構造パターンを記憶するデータベースである。木構造パターンは、文中の単語間の文の要素に関する関係を示す木構造データについて単語グループを用いて抽象化したデータである。文の要素とは、たとえば、主語、述語、目的語である。木構造データは、たとえば、形態素解析および句構造解析(以下、構文解析)により句構造規則にしたがって生成される構文木である。図1のルールRaは、主語(ワイルドカード)、述語、および目的語(ワイルドカード)の語順であり、述語を構成する動詞が単語グループGaである木構造パターンとする。
The
データストア103は、各種文(たとえば、学術論文や書籍内の文、新聞雑誌内の文、Webページに記述された文など)のテキストデータを記憶する。
The
(A)ルールRaの木構造パターンでデータストア103が検索されると(S11)、検索結果111が得られる。検索結果111内の文は、いずれもルールRaを満たすテキストデータである。ここで、(A)において、単語辞書DB101に対するメンテナンスにより、単語グループGaに「reduce」が追加されて(B)の状態になったとする。(B)ルールRaの木構造パターンでデータストア103が検索されると(S12)、検索結果112が得られる。単語グループGaに「reduce」が追加された場合でも、ルールRaを修正することなく、検索が可能である。
(A) When the
この場合、検索結果112内の文は、いずれもルールRaを満たすテキストデータであり、かつ、検索結果111にさらに「reduce」を含む「Z reduces D.」、「X is going to reduce E.」が追加される。このように、単語辞書DB101をメンテナンスするだけで、ルールDB102をメンテナンスしなくても単語辞書DB101のメンテナンス結果を充足した検索が可能となる。
In this case, the sentences in the
また、(B)において、単語辞書DB101に対するメンテナンスにより、単語グループGaから「reduce」が削除されて(A)の状態になったとする。(A)ルールRaの木構造パターンでデータストア103が検索されると、検索結果111が得られる。単語グループGaから「reduce」が削除された場合でも、ルールRaを修正することなく、検索が可能である。
Also, in (B), it is assumed that due to maintenance of the
この場合、検索結果111内の文は、いずれもルールRaを満たすテキストデータであり、かつ、検索結果112において「reduce」を含む「Z reduces D.」、「X is going to reduce E.」が検索されない。なお、単語の変更については、上述した単語の削除および追加を実行すればよい。たとえば、(B)において、「reduce」を「drop」に変更する場合は、単語グループGaから「reduce」を削除して「drop」を追加すればよい。このように、単語辞書DB101をメンテナンスするだけで、ルールDB102をメンテナンスしなくても単語辞書DB101のメンテナンス結果を充足した検索が可能となる。
In this case, the sentences in the
図2は、データベースのメンテナンス例2を示す説明図である。図2では、ルールDB102に対するメンテナンスについて説明する。(A)は、図1の(A)と同様である。(B)は、新たに追加されたルールRbを示す。ルールRbは、主語(ワイルドカード)、述語(助動詞(ワイルドカード)および動詞)、および目的語(ワイルドカード)の語順であり、動詞が単語グループGaである木構造パターンとする。すなわち、ルールRbは、ルールRaに助動詞が追加された木構造パターンである。
FIG. 2 is an explanatory diagram showing an example 2 of database maintenance. FIG. 2 explains maintenance for the
(B)ルールRbの木構造パターンでデータストア103が検索されると(S13)、検索結果210が得られる。検索結果210内の文は、いずれもルールRbを満たすテキストデータである。また、ルールを削除する場合も、ルールDB102からルールRbを削除するだけでよく、単語辞書DB101をメンテナンスする必要がない。ルールの変更については、上述したルールの削除および追加を実行すればよい。たとえば、ルールRaをルールRbに変更する場合は、ルールRaを呼び出して、助動詞(ワイルドカード)を動詞(単語グループGa)の前に追加すればよい。このように、ルールDB102をメンテナンスするだけで、単語辞書DB101をメンテナンスしなくてもルールDB102のメンテナンス結果を充足した検索が可能となる。
(B) When the
図3は、データベースのメンテナンス例3を示す説明図である。図3では、ルールDB102に対するメンテナンスについて説明する。ルールに単語グループが用いられている場合、単語グループ内の単語ごとにルールをルールDB102に登録しておく必要がない。たとえば、ルールRaは、単語グループGaを用いているため、動詞ごとのルールRa1、Ra2をルールDB102に登録する必要がない。これにより、ルールの重複を抑制し、ルールDB102の省メモリ化を図ることができる。
FIG. 3 is an explanatory diagram of a database maintenance example 3. As shown in FIG. FIG. 3 explains maintenance for the
<情報処理システムのハードウェア構成例>
つぎに、情報処理システムを構成する1以上のコンピュータ400のハードウェア構成例について説明する。
<Hardware Configuration Example of Information Processing System>
Next, a hardware configuration example of one or
図4は、コンピュータのハードウェア構成例を示すブロック図である。コンピュータ400は、プロセッサ401と、記憶デバイス402と、入力デバイス403と、出力デバイス404と、通信インターフェース(通信IF405)と、を有する。プロセッサ401、記憶デバイス402、入力デバイス403、出力デバイス404、および通信IF405は、バス406により接続される。プロセッサ401は、コンピュータ400を制御する。記憶デバイス402は、プロセッサ401の作業エリアとなる。また、記憶デバイス402は、各種プログラムやデータを記憶する非一時的なまたは一時的な記録媒体である。記憶デバイス402としては、たとえば、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)、フラッシュメモリがある。入力デバイス403は、データを入力する。入力デバイス403としては、たとえば、キーボード、マウス、タッチパネル、テンキー、スキャナがある。出力デバイス404は、データを出力する。出力デバイス404としては、たとえば、ディスプレイ、プリンタがある。通信IF405は、ネットワークと接続し、データを送受信する。
FIG. 4 is a block diagram showing a hardware configuration example of a computer. The
<データベースの記憶内容例>
つぎに、上述した単語辞書DB101、ルールDB102、およびデータストア103の記憶内容例について説明する。単語辞書DB101、ルールDB102、およびデータストア103は、図4に示したコンピュータ400内の記憶デバイス402により実現されてもよく、通信IF405を介してアクセス可能な他のコンピュータで実現されてもよい。なお、以降のデータベースまたはテーブルの説明において、AAフィールドbbb(AAはフィールド名、bbbは符号)の値を、AAbbbと表記する場合がある。たとえば、グループIDフィールド501の値を、グループID501と表記する。
<Example of data stored in database>
Next, examples of contents stored in the
図5は、単語辞書DB101の記憶内容例を示す説明図である。単語辞書DB101は、グループIDフィールド501と、属性フィールド502と、単語フィールド503と、品詞フィールド504と、を有する。同一行の各フィールド501~504の値の組み合わせが1つの単語グループを示すエントリを規定する。グループIDフィールド501は、グループIDを格納する記憶領域である。グループID501は、単語グループを一意に特定する識別情報である。
FIG. 5 is an explanatory diagram showing an example of contents stored in the
属性フィールド502は、属性を格納する記憶領域である。属性502は、その単語グループが示す特徴である。たとえば、日本語の文において主語の助詞が「が」格となる動詞や、特定の副詞と共起する動詞が挙げられる。そのほか、同義語や類義語であったり、特定の分野(投資、医療など)に用いられる単語であってもよい。
The
単語フィールド503は、単語を格納する記憶領域である。単語503は、その単語グループに属する単語である。操作者(使用者または管理者)は、単語フィールド503に対して、単語503の追加、変更、削除が可能である。
A
品詞フィールド504は、品詞を格納する記憶領域である。品詞504は、単語グループに所属する単語を形態と役割によって分類した種別である。なお、品詞504において、単語の形態を指定してもよい。英単語の場合、動詞は、たとえば、原型(現在形)や過去形、過去分詞形、現在進行形、から指定され、名詞は、たとえば、不可算名詞、加算名詞、単数形、複数形から指定され、形容詞や副詞は、たとえば、原型、比較級、最上級から指定される。単に品詞のみ指定された場合(形態が指定されていない場合)は、その品詞504のすべての形態が包含されることとしてもよい。
The part-of-
図6は、ルールDB102の記憶内容例を示す説明図である。ルールDB102は、ルールIDフィールド601と、木構造パターンフィールド602と、を有する。同一行の各フィールド601、602の値の組み合わせが1つのルールを示すエントリを規定する。ルールIDフィールド601は、ルールIDを格納する記憶領域である。ルールID601は、ルールを一意に特定する識別情報である。木構造パターンフィールド602は、木構造パターンを格納する記憶領域である。操作者は、木構造パターンフィールド602に対して、木構造パターン602の追加、変更、削除が可能である。なお、図1~図3では、木構造パターン602内の動詞を単語グループとし主語や目的語をワイルドカードとしたルールを示したが、木構造パターン602において主語や目的語など述語以外の語句に単語グループを適用し、それ以外の語句をワイルドカードとしてもよい。また、1つの木構造パターン602に複数の単語グループを適用したルールとしてもよい。
FIG. 6 is an explanatory diagram showing an example of contents stored in the
図7は、データストア103の記憶内容例を示す説明図である。データストア103は、見出し語フィールド701と、本文フィールド702と、木構造データフィールド703と、を有する。同一行の各フィールド701~703の値の組み合わせが1つの文に関するエントリを規定する。
FIG. 7 is an explanatory diagram showing an example of the contents stored in the
見出し語フィールド701は、見出し語を格納する記憶領域であり、インデックス検索に利用される。見出し語フィールド701は、複数の注釈フィールド(図7では、注釈a0フィールド710~注釈a2フィールド712の3個)を有する。注釈a0フィールド710は、注釈a0としてあらかじめ設定された見出し語701を格納する記憶領域である。注釈a1フィールド711および注釈a2フィールド712は、注釈a1および注釈a2となる見出し語701を格納する記憶領域である。注釈a1フィールド711および注釈a2フィールド712は、初期状態ではブランクであり、後述のインデックス更新により注釈a1および注釈a2が追加される。
The
本文フィールド702は、本文を格納する記憶領域である。本文702とは、木構造データ703の解析元となるテキストデータである。木構造データフィールド703は、本文を句構造規則にしたがって構文解析した木構造データを格納する記憶領域である。
A
<各種データの例>
図8は、本文702の一例を示す説明図である。図8では、英語の本文st1の一例を示したが、英語に限らず日本語など他の言語でもよい。
<Examples of various data>
FIG. 8 is an explanatory diagram showing an example of the
図9は、木構造データおよび木構造パターンの一例を示す説明図である。木構造データtr1は、図8の本文st1を句構造規則にしたがって構文解析した構文木である。木構造データtr1において、「POS」は品詞、「ROOT」は構文木の根を示す。1文字~3文字の大文字アルファベット列は、品詞の種類(名詞、動詞など)を示す。木構造パターンtp1は、操作者が木構造データtr1から不要な情報を削除して編集したパターンである。この木構造パターンtp1は、主語がワイルドカード、述語が動詞の「spin off」、目的語がワイルドカードとなる語順のルールを示す。 FIG. 9 is an explanatory diagram showing an example of tree structure data and a tree structure pattern. The tree structure data tr1 is a syntax tree obtained by parsing the text st1 of FIG. 8 according to the phrase structure rules. In the tree structure data tr1, "POS" indicates the part of speech, and "ROOT" indicates the root of the syntax tree. A string of 1 to 3 capital letters indicates the type of part of speech (noun, verb, etc.). The tree structure pattern tp1 is a pattern edited by deleting unnecessary information from the tree structure data tr1 by the operator. This tree structure pattern tp1 indicates a word order rule in which the subject is a wildcard, the predicate is the verb "spin off", and the object is a wildcard.
図10は、パターン表現の一例を示す説明図である。パターン表現1000は、情報処理システムが情報処理を実行する際に用いられる。また、操作者は、パターン表現1000を認識することで、木構造データ703を編集して木構造パターン602を生成することができる。パターン表現1000において、「_」はリーフノード(構文木の葉)の判定、「|」は選択肢、「#」はサブツリー(構文木内の部分木)抽出、「!」は否定、「*」は0回以上のサブツリーの出現、「+」は1回以上の出現を示す。なお、図10に示したパターン表現1000は一例である。
FIG. 10 is an explanatory diagram showing an example of pattern representation. The
図11は、図10に示したパターン表現を用いた変換例を示す説明図である。木構造データtr11において、品詞(POS)が動詞(VP)であるincreaseまたはcauseの選択が、affectというグループID501の単語グループの呼び出し(\dic.)に変換されている。これにより、単語グループを含む木構造パターンtp11が生成される。なお、このような変換は、操作者の編集操作により実行される。
FIG. 11 is an explanatory diagram showing a conversion example using the pattern representation shown in FIG. In the tree structure data tr11, the selection of increase or cause whose part of speech (POS) is a verb (VP) is converted to a call (\dic.) of a word group with a
<情報処理手順例>
図12は、情報処理システムによる情報処理手順例を示すフローチャートである。情報処理システムは、メンテナンス要求を待ち受ける(ステップS1201:No)。メンテナンス要求は、プロセッサ401からの指示、端末から通信IF405を介して、または入力デバイス403から与えられる。メンテナンス要求があった場合(ステップS1201:Yes)、情報処理システムは、メンテナンス要求が単語に関するメンテナンス要求であるかルール(木構造パターン)に関するメンテナンス要求であるかを、メンテナンス要求に含まれている情報により判断する(ステップS1202)。
<Example of information processing procedure>
FIG. 12 is a flowchart showing an example of an information processing procedure by the information processing system. The information processing system waits for a maintenance request (step S1201: No). A maintenance request is given from an instruction from the
単語に関するメンテナンス要求である場合(ステップS1202:単語)、情報処理システムは、単語に関するメンテナンス要求が単語の追加であるか削除であるかを、単語に関するメンテナンス要求に含まれている情報により判断する(ステップS1203)。単語の追加である場合(ステップS1203:追加)、情報処理システムは、追加先の単語グループを単語辞書DB101から特定する(ステップS1204)。具体的には、たとえば、情報処理システムは、単語に関するメンテナンス要求に追加先のグループIDが含まれている場合、単語に関するメンテナンス要求に含まれている追加対象の単語の追加先として、当該グループID501で指定された単語グループを特定する。
If the maintenance request is for a word (step S1202: word), the information processing system determines whether the maintenance request for a word is for addition or deletion of a word based on the information included in the maintenance request for a word (step S1202: word). step S1203). If it is a word addition (step S1203: add), the information processing system identifies the word group to which the word is to be added from the word dictionary DB 101 (step S1204). Specifically, for example, when the word maintenance request includes the group ID of the addition destination, the information processing system selects the
また、単語に関するメンテナンス要求に追加先のグループIDが含まれてない場合、情報処理システムは、自動的に追加先の単語グループを特定してもよい。たとえば、追加対象の単語が、単語に関するメンテナンス要求に含まれている本文702から抽出した単語である場合、情報処理システムは、当該本文の特徴に該当する属性の単語グループを単語辞書DB101から特定する。そして、情報処理システムは、特定した追加先の単語グループに、追加対象の単語を追加して(ステップS1205)、ステップS1201に戻る。
Further, if the maintenance request for the word does not include the group ID of the addition destination, the information processing system may automatically identify the word group of the addition destination. For example, if the word to be added is a word extracted from the
また、ステップS1203において、単語の削除である場合(ステップS1203:削除)、情報処理システムは、単語辞書DB101の削除対象の単語グループから、単語に関するメンテナンス要求に含まれている削除対象の単語を削除して(ステップS1206)、ステップS1201に戻る。削除対象の単語グループとは、たとえば、単語に関するメンテナンス要求にグループID501が指定されていなければ、単語辞書DB101の全エントリであり、グループID501が指定されていれば、当該グループID501で指定されたエントリである。
Also, in step S1203, if the word is to be deleted (step S1203: delete), the information processing system deletes the word to be deleted included in the maintenance request related to the word from the word group to be deleted in the
また、ステップS1202において、ルールに関するメンテナンス要求である場合(ステップS1202:ルール)、情報処理システムは、ルールに関するメンテナンス要求がルールの追加であるか削除であるかを、ルールに関するメンテナンス要求に含まれている情報により判断する(ステップS1207)。ルールの追加である場合(ステップS1207:追加)、情報処理システムは、ルールDB102に、ルールに関するメンテナンス要求に含まれている追加対象のルールを追加して(ステップS1205)、ステップS1201に戻る。
In step S1202, if the maintenance request is for a rule (step S1202: rule), the information processing system determines whether the rule-related maintenance request is for addition or deletion of a rule. This determination is made based on the information available (step S1207). In the case of addition of a rule (step S1207: add), the information processing system adds to the
また、ステップS1207において、ルールの削除である場合(ステップS1207:削除)、情報処理システムは、ルールDB102から、ルールに関するメンテナンス要求に含まれているルールID601のエントリを削除して(ステップS1209)、ステップS1201に戻る。
Also, in step S1207, if the rule is to be deleted (step S1207: delete), the information processing system deletes the entry of the
<情報処理システムの利用例>
図13は、情報処理システムの利用例を示す説明図である。(1)情報処理システムは、データストア103から本文stc1を取得する。(1)では、情報処理システムは、文stc1を直接指定して取得してもよく、見出し語701を用いたインデックス検索により、文stc1を取得してもよい。(2)情報処理システムは、構文解析により、取得した文stc1を木構造データtrcに変換する。(2)では、情報処理システムが構文解析を実行してもよく、情報処理システムが他のコンピュータに文stc1を送信して、当該他のコンピュータが構文解析を実行して木構造データtrcを情報処理システムに返してもよい。また、木構造データtrcがすでに生成済みであれば、情報処理システムは、データストア103から本文stc1に関連付けられている木構造データtrcを呼び出す。
<Use example of information processing system>
FIG. 13 is an explanatory diagram showing a usage example of the information processing system. (1) The information processing system acquires the text stc1 from the
(3)情報処理システムは、操作者の編集操作により、木構造データtrcから木構造パターンを生成し、ルールRcとする。ここでは、ルールRcの述語には、動詞の単語グループGbが適用されたこととする。 (3) The information processing system generates a tree-structured pattern from the tree-structured data trc by the editing operation of the operator, and uses it as a rule Rc. Here, it is assumed that the verb word group Gb is applied to the predicate of the rule Rc.
(4)情報処理システムは、ルールRcの木構造パターンから注釈a1として、文stc1の主語である「X」を抽出し、注釈a2として、文stc1の目的語である「A」を抽出して、表示画面に表示する。 (4) The information processing system extracts the subject "X" of the sentence stc1 as the annotation a1 from the tree structure pattern of the rule Rc, and extracts the object "A" of the sentence stc1 as the annotation a2. , to be displayed on the display screen.
(5)情報処理システムは、ルールRcをルールDB102に登録する。なお、同一内容のルールが登録済みである場合は、情報処理システムは、ルールRcをルールDB102に登録しない。
(5) The information processing system registers rule Rc in
(6)情報処理システムは、(2)の木構造データtrcと(4)の注釈a1,a2とを、データストア103の文stc1のエントリに登録する。これにより、取得した本文stc1の見出し語701を自動生成することができ、これ以降のインデックス検索の効率化を図ることができる。
(6) The information processing system registers the tree structure data trc of (2) and the annotations a1 and a2 of (4) in the entry of the sentence stc1 in the
(7)情報処理システムは、データストア103の文stc1以外の他の本文をサーチしてルールRcに該当する本文stc2を特定し、本文stc2のエントリの主語である「J」を注釈a1、目的語である「K」を注釈a2として登録する(インデックス更新)。これにより、他の本文stc2にも波及して見出し語701を自動生成することができ、これ以降のインデックス検索の効率化を図ることができる。
(7) The information processing system searches texts other than the text stc1 in the
つぎに、図13に示した利用例での表示画面例について図14~図19を用いて説明する。図14~図19の表示画面は、情報処理システム内のあるコンピュータ400で表示される表示画面である。
Next, examples of display screens in the example of use shown in FIG. 13 will be described with reference to FIGS. 14 to 19. FIG. The display screens of FIGS. 14 to 19 are display screens displayed by a
図14は、情報処理システムの表示画面例1を示す説明図である。表示画面1400は、サンプルタブ1401、バリデートタブ1402、およびインデックスタブ1403を有する。図14では、サンプルタブ1401が表示される。サンプルタブ1401は、検索キーワード入力欄1411、検索ボタン1412、および保存ボタン1415を有する。検索キーワード入力欄1411は、操作者が検索キーワードを入力する入力欄である。検索ボタン1412は、操作者の操作により、データストア103の見出し語701をインデックス検索し、対応する本文702を抽出するためのボタンである。なお、本例では、インデックス検索として説明するが本文702の全文検索でもよい。
FIG. 14 is an explanatory diagram showing a display screen example 1 of the information processing system.
図14では、検索キーワード入力欄1411に「spin off」が入力されて検索ボタン1412が押下されたとする。これにより、図13の(1)に示したように、データストア103の見出し語701がインデックス検索され、対応する本文702が検索結果1413として表示される。検索結果1413の各本文は、チェックボックス1414を有し、情報処理システムは、操作者がチェックボックス1414にチェックを入れられた本文を選択する。図14では、本文st1が選択されたものとする。保存ボタン1415は、検索結果1413からチェックボックス1414で選択された本文を保存するためのボタンである。保存ボタン1415の押下により、チェックボックス1414にチェックを入れられた本文st1がデータストア103に保存される。
In FIG. 14, it is assumed that "spin off" is entered in the search
図15は、情報処理システムの表示画面例2を示す説明図である。表示画面例2は、図14の表示画面例1でチェックボックス1414にチェックを入れた状態で、バリデートタブ1402を選択した場合の表示画面例である。バリデートタブ1402は、確認領域1501と、コピー領域1502と、解析ボタン1503と、注釈ボタン1504と、追加ボタン1505と、編集領域1506と、を有する。確認領域1501は、選択文表示領域1510と、注釈a1表示領域1511と、注釈a2表示領域1512と、を有する。選択文表示領域1510は、図14の表示画面例1でチェックボックス1414にチェックを入れられたことで選択された本文を表示する。注釈a1表示領域1511は、注釈a1(主語)を表示する領域である。注釈a2表示領域1512は、注釈a2(目的語)を表示する領域である。
FIG. 15 is an explanatory diagram showing a display screen example 2 of the information processing system. Display screen example 2 is an example of a display screen when the validate
表示画面例2では、注釈a1表示領域1511は、注釈a1用テキスト入力欄1513を有する。操作者は、選択文表示領域1510の本文st1を参照して、注釈a1用テキスト入力欄1513に、注釈a1(主語)に相当する語句(たとえば、「Nichiritsu」)を入力する。注釈a2表示領域1512は、注釈a2用テキスト入力欄1514を有する。操作者は、選択文表示領域1510の本文st1を参照して、注釈a2用テキスト入力欄1514に、注釈a2(目的語)に相当する語句(たとえば、「home appliance」)を入力する。
In display screen example 2, the annotation
確認領域1501に表示された本文st1と、注釈a1用テキスト入力欄1513に入力された語句「Nichiritsu」と、注釈a2用テキスト入力欄1514に入力された語句「home appliance」との組み合わせを、確認用データセット1500と称す。
The combination of the text st1 displayed in the
コピーボタン1515は、操作者の操作により、選択文表示領域1510の本文をコピー領域1502にコピーするためのボタンである。コピー領域1502は、コピーボタン1515の押下により、選択文表示領域1510の本文st1をコピーして表示する領域である。解析ボタン1503は、コピー領域1502にコピーされた本文st1を構文解析するためのボタンである(図13の(2)に対応)。注釈ボタン1504は、編集領域1506で編集された木構造パターンから本文st1の注釈を抽出するためのボタンである(図13の(4)に対応)。追加ボタン1505は、編集領域1506で編集された木構造パターンをルールDB102にルールとして追加するためのボタンである(図13の(5)に対応)。
A
図16は、情報処理システムの表示画面例3を示す説明図である。表示画面例3は、図15の表示画面例2でコピーボタン1515および解析ボタン1503を押下した場合の表示画面例である。操作者の操作により、コピーボタン1515が押下されると、コピー領域1502に選択した本文st1がコピーされる。次に、操作者の操作により、解析ボタン1503が押下されると、選択した本文st1を構文解析した木構造データtr1が編集領域1506に表示される(図13の(2)に対応)。
FIG. 16 is an explanatory diagram showing a display screen example 3 of the information processing system. A display screen example 3 is an example of a display screen when the
図17は、情報処理システムの表示画面例4を示す説明図である。表示画面例4は、図16の表示画面例3で編集領域1506内の木構造データtr1を編集した場合の表示画面例である。たとえば、操作者の操作により、情報処理システムは、注釈として抽出させる単語に注釈を示す「a0」,「a1」,「a2」を付与する。「a0」,「a1」,「a2」は、ルールを定義する。注釈a0は、他の注釈a1,a2の抽出基準となる抽出対象外の注釈である。すなわち、注釈a0が単語であれば、他の本文と一致する抽出対象外の単語であり、注釈a0が単語グループであれば、他の本文の単語を包含する抽出対象外の単語グループである。注釈a1は木構造パターンtp1で注釈a0に対する主語(名詞句(NP))として定義され、注釈a2は木構造パターンtp1で注釈a0に対する目的語(名詞句(NP))で定義されているため、他の本文からルールに該当する名詞句が抽出される。
FIG. 17 is an explanatory diagram showing a display screen example 4 of the information processing system. A display screen example 4 is an example of a display screen when the tree structure data tr1 in the
また、操作者の操作により、操作者の主観で重要でないサブツリーや「lemmma」(単語の基本形)が削除される。また、図11に示したように、木構造データtr1で定義されている単語が、当該単語を含む単語グループの呼び出しの記述に変更される場合もある。 In addition, subtrees and "lemmma" (basic forms of words) that are subjectively unimportant to the operator are deleted by the operator's operation. Also, as shown in FIG. 11, a word defined in the tree structure data tr1 may be changed to a description of calling a word group containing the word.
図18は、情報処理システムの表示画面例5を示す説明図である。表示画面例5は、図17の表示画面例4で注釈ボタン1504を押下した場合の表示画面例である。操作者の操作により注釈ボタン1504が押下されると、情報処理システムは、編集領域1506で編集された木構造パターンtp1(ルール)に該当する注釈a1,a2に該当する文字列を、コピー画面の選択した本文st1から抽出し、抽出結果1800を表示する(図13の(4)に対応)。この場合、注釈a1の名詞句として、「Japanese electronics maker Nichiritsu」が抽出され、注釈a2の名詞句として「its home appliance and industrial equipment divisions」が抽出される。また、抽出された注釈a1,a2の名詞句はそれぞれ、注釈a1表示領域1511と注釈a2表示領域1512とに表示される。
FIG. 18 is an explanatory diagram showing example 5 of the display screen of the information processing system. Display screen example 5 is an example of a display screen when the
これにより、操作者は、注釈a1用テキスト入力欄1513に入力した語句「Nichiritsu」と、ルールに従って抽出された注釈a1の名詞句「Japanese electronics maker Nichiritsu」とを比較して、ルールの確からしさを確認することができる。同様に、操作者は、注釈a2用テキスト入力欄1514に入力した語句「home appliance」と、ルールに従って抽出された注釈a2の名詞句「its home appliance and industrial equipment divisions」とを比較して、ルールの確からしさを確認することができる。
As a result, the operator compares the phrase "Nichiritsu" input in the
また、追加ボタン1505が押下されることで、編集領域1506内の文字列(編集された木構造データtr1)が木構造パターンtp1となって、ルールとしてルールDB102に登録される(図13の(5)に対応)。
Further, when the
図19は、情報処理システムの表示画面例6を示す説明図である。表示画面例6は、図18の表示画面例5でインデックスタブ1403を選択した場合の表示画面例である。インデックスタブ1403は、更新ボタン1900を有する。操作者の操作により、更新ボタン1900が押下されると、情報処理システムは、選択した本文st1について、木構造データtr1と、注釈a1の名詞句「Japanese electronics maker Nichiritsu」と、注釈a2の名詞句「its home appliance and industrial equipment divisions」を関連付けてデータストア103に登録することで、選択した本文st1のエントリをインデックス更新する(図13の(6)に対応)。
FIG. 19 is an explanatory diagram showing a display screen example 6 of the information processing system. A display screen example 6 is an example of a display screen when the
同様に、情報処理システムは、他の本文について、木構造パターンtp1のルールに該当する注釈a1の名詞句および注釈a2の名詞句を、当該他の本文に関連付けてデータストア103に登録することで、当該他の本文のエントリをインデックス更新する(図13の(7)に対応)。
Similarly, the information processing system registers the noun phrase of annotation a1 and the noun phrase of annotation a2 that correspond to the rule of tree structure pattern tp1 in the
<情報処理システムの利用例における処理手順例>
図20は、情報処理システムの利用例における処理手順例を示すフローチャートである。情報処理システムは、図14に示したように、検索キーワード入力欄1411への検索キーワードの入力を受け付け(ステップS2001)、検索ボタン1412の押下により、入力された検索キーワードによるインデックス検索を実行する(ステップS2002)。情報処理システムは、図14に示したように、操作者の操作によって選択された本文を保存する(ステップS2003)。
<Example of processing procedure in example of use of information processing system>
FIG. 20 is a flowchart illustrating an example of a processing procedure in an example of use of the information processing system. As shown in FIG. 14, the information processing system receives input of a search keyword in the search keyword input field 1411 (step S2001), and executes an index search using the input search keyword by pressing a search button 1412 ( step S2002). The information processing system saves the text selected by the operator's operation, as shown in FIG. 14 (step S2003).
つぎに、情報処理システムは、図15に示したように、操作者の操作により、確認用データセット1500を設定する(ステップS2004)。そして、情報処理システムは、図16に示したように、選択した本文st1の構文解析により、木構造データtr1を取得する(ステップS2005)。また、情報処理システムは、操作者による追加ボタン1505の押下により、木構造データtr1から編集された木構造パターンtp1をルールDB102に登録する(ステップS2006)。追加ボタン1505の押下は、図12のステップS1207:追加に対応し、木構造パターンtp1の登録は、図12のステップS1208に対応する。
Next, as shown in FIG. 15, the information processing system sets the
そして、情報処理システムは、図18に示したように、操作者の操作により、注釈ボタン1504が押下されることで、木構造パターンtp1のルールに従って、選択された本文st1から注釈a1の語句および注釈a2の語句を抽出して、抽出結果1800として表示する(ステップS2007)。
Then, as shown in FIG. 18, when the
なお、操作者は、木構造パターンtp1の編集を繰り返しおこなうことができ、情報処理システムは、その都度、木構造パターンtp1をルールとして登録してもよい。この場合、ステップS2007において、情報処理システムは、木構造パターンtp1ごとに、選択本文から注釈を抽出することになる。このあと、情報処理システムは、図19に示したように、抽出した注釈をデータストア103にインデックス更新する(ステップS2008)。
Note that the operator can repeatedly edit the tree structure pattern tp1, and the information processing system may register the tree structure pattern tp1 as a rule each time. In this case, in step S2007, the information processing system extracts annotations from the selected text for each tree structure pattern tp1. Thereafter, the information processing system updates the index of the extracted annotations in the
このように、上述した情報処理システムは、単語辞書DB101と、ルールDB102と、を有し、プロセッサ401は、メンテナンス要求を受け付ける受付処理と、受付処理によって受け付けられたメンテナンス要求が単語に関するメンテナンス要求である場合、単語が所属する単語グループに対するメンテナンスを単語辞書DB101に対して行い、メンテナンス要求が木構造パターンに関するメンテナンス要求である場合、木構造パターンのメンテナンスをルールDB102に対して行うメンテナンス処理と、を実行する。
In this way, the information processing system described above has a
これにより、単語辞書DB101とルールDB102とを各々独立してメンテナンスが可能となる。換言すれば、情報処理システムは、単語辞書DB101とルールDB102のうち、いずれか一方のデータベースのみメンテナンスする。したがって、単語辞書DB101内のある単語グループをメンテナンスしても、当該単語グループを用いるルールをルールDB102でメンテナンスする必要はない。逆に、ルールDB102内のあるルールをメンテナンスしても、当該ルールに用いられる単語グループをメンテナンスする必要はない。したがって、データベースのメンテナンスの容易化を図ることができる。
Thereby, the
また、プロセッサ401は、単語に関するメンテナンス要求が単語の追加要求である場合、単語に基づいて単語が所属すべき単語グループの属性を特定する特定処理を実行し、メンテナンス処理では、プロセッサ401は、特定処理によって特定された属性の単語グループに単語を追加する。
In addition, when the maintenance request for a word is a word addition request, the
これにより、単語の追加要求があった場合、単語辞書DB101内の該当する単語グループに当該単語を追加登録するが、当該単語グループを用いるルールをルールDB102でメンテナンスする必要はない。したがって、単語登録の際のメンテナンスの容易化を図ることができる。
As a result, when there is a request to add a word, the word is additionally registered in the corresponding word group in the
また、メンテナンス処理では、プロセッサ401は、単語に関するメンテナンス要求が単語の削除要求である場合、単語が所属する単語グループから単語を削除する。
In the maintenance process,
これにより、単語の削除要求があった場合、単語辞書DB101内の該当する単語グループから当該単語を削除するが、当該単語グループを用いるルールをルールDB102でメンテナンスする必要はない。したがって、単語削除の際のメンテナンスの容易化を図ることができる。
As a result, when there is a request to delete a word, the word is deleted from the corresponding word group in the
また、メンテナンス処理では、プロセッサ401は、木構造パターンに関するメンテナンス要求が木構造パターンの追加要求である場合、ルールDB102に木構造パターンが存在しなければ木構造パターンをルールDB102に登録する。
Also, in the maintenance process, if the tree structure pattern maintenance request is a tree structure pattern addition request, the
これにより、木構造パターンの追加要求があった場合、ルールDB102に当該木構造パターンを新規なルールとして追加登録するが、当該新規なルールに用いられる単語グループを単語辞書DB101でメンテナンスする必要はない。したがって、木構造パターン登録の際のメンテナンスの容易化を図ることができる。
As a result, when there is a request to add a tree structure pattern, the tree structure pattern is additionally registered in the
また、メンテナンス処理では、プロセッサ401は、木構造パターンに関するメンテナンス要求が木構造パターンの削除要求である場合、木構造パターンをルールDB102から削除する。
Also, in maintenance processing, the
これにより、木構造パターンの削除要求があった場合、ルールDB102から当該木構造パターンを削除するが、当該木構造パターンに用いられる単語グループを単語辞書DB101でメンテナンスする必要はない。したがって、木構造パターン登録の際のメンテナンスの容易化を図ることができる。
As a result, when there is a request to delete a tree structure pattern, the tree structure pattern is deleted from the
また、プロセッサ401は、複数の文を記憶するデータストア103にアクセス可能であり、複数の文のうち特定の単語を含むデータストア103内の特定の文の解析結果である特定の木構造データを、特定の単語を含む特定の単語グループを用いて抽象化した特定の木構造パターンを取得する取得処理と、特定の木構造データから、取得処理によって取得された特定の木構造パターンにおいて特定の単語グループと共起する語句(たとえば、特定の単語グループが述語動詞である場合の主語や目的語)に包含される単語を抽出する抽出処理と、抽出処理によって抽出された単語を表示画面に表示可能に出力する出力処理と、を実行し、メンテナンス処理では、プロセッサ401は、特定の木構造パターンに関するメンテナンス要求が特定の木構造パターンの追加要求である場合(たとえば、追加ボタン1505の押下)、特定の木構造パターンをルールDB102に登録する。
Also, the
これにより、特定の木構造パターンに該当する単語を特定の文の注釈として表示することができる。したがって、たとえば、特定の文について、あらかじめ特定の単語グループと共起する語句を操作者が選択していた場合、当該選択していた単語と注釈とを比較することにより、特定の木構造パターンの確からしさを確認して、ルールDB102に登録することができる。
As a result, words corresponding to a specific tree structure pattern can be displayed as annotations for a specific sentence. Therefore, for example, if the operator has previously selected a word or phrase that co-occurs with a specific word group for a specific sentence, by comparing the selected word with the annotation, a specific tree structure pattern can be obtained. The probability can be confirmed and registered in the
また、プロセッサ401は、複数の文を記憶するデータストア103にアクセス可能であり、複数の文のうち特定の単語を含むデータストア103内の特定の文の解析結果である特定の木構造データを、特定の単語を含む特定の単語グループを用いて抽象化した特定の木構造パターンを取得する取得処理と、特定の木構造データから、取得処理によって取得された特定の木構造パターンにおいて特定の単語グループと共起する語句に包含される単語を抽出する抽出処理と、抽出処理によって抽出された単語を特定の文に関連付けることによりデータストア103を更新する更新処理と、を実行し、メンテナンス処理では、プロセッサ401は、特定の木構造パターンに関するメンテナンス要求が特定の木構造パターンの追加要求である場合、特定の木構造パターンをルールDB102に登録する。
Also, the
これにより、特定の木構造パターンに該当する単語を特定の文の注釈として関連付けて登録するとともに、当該関連付けに用いられた特定の木構造パターンをルールとしてルールDB102に登録することができる。またこれにより、たとえば、データストア103を検索したい場合に、関連付けられた注釈を見出し語としてインデックス検索することにより、データストア103から特定の文を抽出することができる。
As a result, words corresponding to a specific tree structure pattern can be associated and registered as annotations of a specific sentence, and the specific tree structure pattern used for the association can be registered in the
また、プロセッサ401は、複数の文のうち特定の文以外の他の文の解析結果である他の木構造データから、特定の木構造パターンにおいて特定の単語グループと共起する語句に包含される他の単語を抽出し、抽出処理によって抽出された他の単語を他の文に関連付けることによりデータストア103を更新する。
In addition, the
これにより、データストア103の他の文についても、特定の木構造パターンに該当する他の単語を他の文の注釈として関連付けて登録することができ、特定の木構造パターンで規定されるルールを他の文にまで波及することができる。
As a result, for other sentences in the
[2.単語辞書DB101への単語の追加登録例]
上述したように、情報処理システムは、文法構造を表す木構造パターンをルールとして規定するルールDB102と関係を表す語を収集した単語辞書DB101とを有する。これらにより、情報処理システムは、文の要素のような関係について、文法的な構造を定義し、テキストデータから関係アノテーションとして注釈a0~a2を抽出する。情報処理システムは、ルールDB102および単語辞書DB101を比較し、ルールDB102と単語辞書DB101の両方に合致する語を抽出する。このように、多くの関係情報を抽出できるようにするためには、単語辞書DB101への単語の追加が必要となる。
[2. Example of additional registration of words to word dictionary DB 101]
As described above, the information processing system has a
しかしながら、単語辞書DB101内の単語を増やすことが困難であるという課題がある。上記特許文献1は、キーワード検索のみで抽出したい関係を含む例文を検索していたため、木構造ルールに合致しない例文も検索されてしまう。したがって、新たな例文を追加する際にはルールDB102と単語辞書DB101の両方を編集する必要がある。
However, there is a problem that it is difficult to increase the number of words in the word dictionary DB101. In Japanese Patent Laid-Open No. 2002-200011, since example sentences including relationships to be extracted are searched only by keyword search, example sentences that do not match the tree structure rule are also searched. Therefore, when adding a new example sentence, it is necessary to edit both the
このため、情報処理システムは、抽出結果である関係アノテーション(たとえば、主語および目的語に該当する単語の組み合わせ)およびルールDB102内の木構造パターンが示すルール(たとえば、文の要素(たとえば、主語、述語、目的語)の組み合わせ)を用いることで大量のテキストデータから登録対象候補(たとえば、述語)を取得する。これにより得られる登録候補を含む例文は、木構造パターンが示すルールと合致していることが保証されるため、獲得された登録候補を単語辞書DB101に追加するだけで、その例文から新たに関係抽出が可能となる。
For this reason, the information processing system extracts relational annotations (for example, a combination of words corresponding to subjects and objects) and rules indicated by tree structure patterns in the rule DB 102 (for example, sentence elements (for example, subjects, By using a combination of predicate and object), candidates for registration (for example, predicate) are obtained from a large amount of text data. Since it is guaranteed that the example sentences containing the registration candidates thus obtained match the rules indicated by the tree structure pattern, simply by adding the acquired registration candidates to the
したがって、ルールDB102の編集を行わずとも、単語辞書DB101だけを更新することで情報処理システムの性能向上が可能となる。ルールDB102の編集には文法構造に対する一定の理解が必要となるため、訓練した人材でないと編集が難しいが、単語辞書DB101は動詞などの語の列挙からなるもので扱いやすい。実際の運用の際には、たとえば、ルールDB102の開発に慣れた人材が一定量のルールDB102を作成し、単語辞書DB101の更新のみを行う人材が情報処理システムにより単語辞書DB101の更新を行うといった作業分担が考えられる。
Therefore, the performance of the information processing system can be improved by updating only the
なお、本例では、上述した[1.単語辞書DBに対するメンテナンス例]において、ルールDB102が構築され、データストア内103の本文702について見出し語701(注釈a0~a2)が付与されているものとする。また、単語辞書DB内の単語グループの1つとして、“enter”が登録済みとする。“enter”は、「参入する」、「参画する」を含む単語グループである。
Note that, in this example, the above [1. Maintenance Example for Word Dictionary DB], it is assumed that the
また、本例では、単語グループを述語の単語グループとし、例文内の主語、述語、および目的語の関係から新たな述語の単語を単語辞書DB101に追加登録する例について説明する。しかし、単語辞書DB101への追加登録は、単語グループに対応する単語であれば、その単語についての文の要素は述語に限られない。なお、例文では英文、日本語文と分かれて記載されているが、これらの別は問わない。
In this example, a word group is defined as a predicate word group, and a new predicate word is additionally registered in the
<単語追加登録例>
図21は、単語追加登録例を示す説明図であり、図22は、単語登録処理手順例を示すフローチャートである。
<Additional word registration example>
FIG. 21 is an explanatory diagram showing an example of word addition registration, and FIG. 22 is a flow chart showing an example of a word registration processing procedure.
(1)情報処理システムは、注釈a1および注釈a2が規定されたルールR1、R2、…(以下、これらを区別しない場合、ルールRと表記)のいずれかに該当する例文2001を検索する(ステップS2201)。本例では、検索された例文2001において、「様々な企業」が注釈a1に該当し、「小売市場に」が注釈a2に該当する。
(1) The information processing system searches for an
なお、例文2001は、情報処理システム外のネットワーク上(たとえば、インターネットのウェブページやデータベースサーバ内の文書データ)に存在するテキストデータである。また、例文は、データストア102内で見出し語701が付与されていない本文702でもよい。
Note that the
(2)情報処理システムは、(1)で検索された例文2001を構文解析して、木構造データ2002を生成する(ステップS2202)。木構造データ2002は、たとえば、構文解析(形態素解析および句構造解析)により句構造規則にしたがって生成される構文木である(図9を参照)。なお、(3)以降の処理精度の向上のため、ユーザは、図9に示したように、木構造データ2002を木構造パターンに編集してもよい。
(2) The information processing system syntactically analyzes the
(3)情報処理システムは、(2)で得られた木構造データ2002と、ルールDB102内のルールRと、を比較する(ステップS2203)。この際、情報処理システムは、(3)において単語辞書DB101を非適用にするため、注釈a0の条件Cを当該比較に使用しない。具体的には、たとえば、情報処理システムは、条件CをルールRから外す。
(3) The information processing system compares the
たとえば、ルールR1の場合、条件Cは、単語グループの“enter”を規定する。したがって、“enter”に該当する「¥dic.enter」(すなわち、「参入する」および「参画する」)がルールR1から外される。 For example, for rule R1, condition C defines the word group "enter." Therefore, "\dic.enter" corresponding to "enter" (that is, "enter" and "participate") is excluded from rule R1.
(4)情報処理システムは、(3)の比較により、例文2001から抽出結果2003を得る(ステップS2204)。たとえば、ルールR1と比較したことにより、情報処理システムは、ルールRの注釈a1の条件に該当する主語「様々な企業が」を例文2001から抽出結果2003として抽出する。
(4) The information processing system obtains an
また、情報処理システムは、ルールRの注釈a2の条件に該当する目的語「小売企業に」を例文2001から抽出結果2003として抽出する。また、上記(2)で注釈a0の条件Cを除外したため、情報処理システムは、条件C(「参入する」および「参画する」)に該当しない述語「登場している」を抽出結果2003として抽出することができる。この条件Cが除外されて抽出された述語「登場している」という動詞の原形「登場する」が単語辞書DB101への登録候補となる。これにより、未登録単語を効率的に収集することができる。なお、抽出結果2003は、少なくとも登録候補が含まれていればよい。
In addition, the information processing system extracts the object "to the retail company" that satisfies the condition of the comment a2 of the rule R from the
(5)情報処理システムは、(4)の抽出結果2003の登録候補「登場する」が、単語辞書DB101に新規追加可能か否かを確認する(ステップS2205)。具体的には、たとえば、情報処理システムは、抽出結果2003に該当する本文702がデータストア内に存在するか否かを判断する。
(5) The information processing system confirms whether or not the registration candidate "appear" in the
抽出結果2003に該当する本文702が存在する場合、抽出結果2003の登録候補「登場する」は、すでに単語辞書DB101において登録済みである。したがって、登録候補「登場する」の登録必要性がないことになり(ステップS2206:No)、情報処理システムは、つぎの(6)の処理(ステップS2207)を実行しない。
If the
一方、抽出結果2003に該当する本文702が存在しない場合、抽出結果2003の登録候補「登場する」は、単語辞書DB101において未登録な述語となる。登録候補「登場する」の登録必要性がある(ステップS2006:Yes)。したがって、情報処理システムは、つぎの(6)の処理(ステップS2207)を実行する。
On the other hand, when the
(6)情報処理システムは、抽出結果2003の登録候補「登場する」を単語辞書DB101に追加登録する(ステップS2207)。この追加登録では、上述したように、情報処理システムは、(5)を実行せずに登録候補を追加登録してもよい。既登録の述語と一致する場合は、上書きされるだけであるため、(5)の処理(ステップS2205)を実行しなくても問題はない。
(6) The information processing system additionally registers the registration candidate "appear" of the
ただし、(5)を実行しない場合、データストア103に例文2001の注釈a1および注釈a2に該当する本文が存在しなくても、登録候補「登場する」が単語辞書DB101に追加登録される場合がある。このように、(5)の処理(ステップS2205)を実行して(6)の処理(ステップS2207)を実行することにより、単語辞書DB101への新規登録の高精度化(誤登録の抑制)を図ることができる。
However, if (5) is not executed, even if the
また、(6)の処理(ステップS2207)において、(5)の処理(ステップS2205)の実行、不実行にかかわらず、情報処理システムは、登録候補「登場する」を、ユーザが操作するコンピュータ400の表示画面に表示させ、ユーザの操作により、ユーザに登録可否を促してもよい。これにより、追加登録前にユーザは追加登録すべきか否かを確認することができる。
In addition, in the process (6) (step S2207), regardless of whether the process (5) (step S2205) is executed or not, the information processing system displays the registration candidate "appearing" as the
このように、情報処理システムは、ルールRに合致する例文2001のみを収集することができ、単語辞書DB101の拡張の効率化を図ることができる。また、ルールDB102を更新せずに、単語辞書DB101を拡張することができる。
Thus, the information processing system can collect only the
<画面遷移例>
つぎに、上述した単語追加登録例における表示画面の画面遷移について説明する。
<Screen transition example>
Next, screen transition of the display screen in the example of word addition registration described above will be described.
図23は、情報処理システムの表示画面例7を示す説明図である。図24は、情報処理システムの表示画面例8を示す説明図である。表示画面1400において単語追加登録に用いるタブは、INVESTIGATEタブ2300とDICTタブ2400である。
FIG. 23 is an explanatory diagram showing a display screen example 7 of the information processing system. FIG. 24 is an explanatory diagram showing a display screen example 8 of the information processing system. The
図23は、上述した(1)の処理(ステップS2401)での表示画面例を示す。図23において、ユーザは、INVESTIGATEタブ2300を選択する。これにより、表示画面1400は、図23に示す画面になる。ユーザは、「Select Annotator」プルダウンから対象の関係の種類(例として「penalize」)を選択して、SEARCHボタン2302をクリックすると、情報処理システムは、既存のルールRと単語辞書DB101によって「penalize」の関係を示す例文2302A,2302Bを検索し、検索結果2303を表示画面1400に表示する。
FIG. 23 shows an example of a display screen in the process (1) (step S2401) described above. In FIG. 23 the user selects the
なお「Please Input keyword」欄2304に絞り込み用の語を入力しておくと、その語を文中に含む例文2302A,2302Bのみが検索、表示される。ユーザは、「penalize」の関係を正しく抽出できている例文2302A,2302Bについて検索結果2303の左端のチェックボックス2305にチェック入力し、STOREボタン2306をクリックして一時保存する。このあと、ユーザは、DICTタブ2400を選択する。これにより、表示画面1400は、図24に示す表示画面になる。
If a word for narrowing down is entered in the "Please Input keyword"
図24は、上述した(2)~(7)の処理(ステップS2402~S2407)での表示画面例を示す。図24において、ユーザは、SEARCHボタン2401をクリックして述語候補を検索する。これにより、抽出結果2402として述語候補2402A,2402Bが例文2302A,2302Bとともに表示される。例文2302A,2302Bは、抽出される注釈a0~a2の文字列が強調表示される。
FIG. 24 shows an example of a display screen in the processes (2) to (7) described above (steps S2402 to S2407). In FIG. 24, the user clicks the
抽出に用いられたルールRを示す木構造パターン2403A,2403Bの名称も表示される。ここでは、単語辞書DB101に登録されていない登録候補が優先的に表示される。既に単語辞書DB101に登録されている登録候補も該当の単語辞書DB101の名称2404とともに表示される。ユーザは、表示された登録候補を確認し、適切な登録候補を対応する木構造パターン2403A,2403Bが呼び出している単語辞書DB101に追加する。図24では、「科す」という語が新たに追加登録される。
Names of
これにより、単語辞書DB101が拡張され、より多くの関係が抽出できるようになる。加えて、単語辞書DB101を拡張した後に、インデックスタブ1403の更新ボタン1900をクリックすることで、情報処理システム内の表示画面1400が表示されたコンピュータ400から、データストア103にアクセス可能なコンピュータ400に注釈a0~a2の書き込み指示を送信する。
As a result, the
データストア103にアクセス可能なコンピュータ400は、データストア103に格納された例文2302A,2302Bに注釈a0~a2を書き込む。これにより、抽出結果2402に該当する例文2302A,2302Bの見出し語701が更新される。このような操作を繰り返すことで、より多くの抽出結果2402を単語追加登録に用いることができるため、更に多くの単語候補を収集することができ、単語辞書DB101に登録される語が増加する。
なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。例えば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加、削除、または置換をしてもよい。 It should be noted that the present invention is not limited to the embodiments described above, but includes various modifications and equivalent configurations within the scope of the appended claims. For example, the above-described embodiments have been described in detail for easy understanding of the present invention, and the present invention is not necessarily limited to those having all the described configurations. Also, part of the configuration of one embodiment may be replaced with the configuration of another embodiment. Moreover, the configuration of another embodiment may be added to the configuration of one embodiment. Moreover, other configurations may be added, deleted, or replaced with respect to a part of the configuration of each embodiment.
また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。 In addition, each configuration, function, processing unit, processing means, etc. described above may be realized by hardware, for example, by designing a part or all of them with an integrated circuit, and the processor realizes each function. It may be realized by software by interpreting and executing a program to execute.
各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記憶装置、又は、IC(Integrated Circuit)カード、SDカード、DVD(Digital Versatile Disc)の記録媒体に格納することができる。 Information such as programs, tables, files, etc. that realize each function is stored in storage devices such as memory, hard disk, SSD (Solid State Drive), or IC (Integrated Circuit) card, SD card, DVD (Digital Versatile Disc) recording Can be stored on media.
また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。 In addition, the control lines and information lines indicate those considered necessary for explanation, and do not necessarily indicate all the control lines and information lines necessary for mounting. In practice, it can be considered that almost all configurations are interconnected.
101 単語辞書DB
102 ルールDB
103 データストア
400 コンピュータ
401 プロセッサ
402 記憶デバイス
101 word dictionary DB
102 Rule DB
103
Claims (8)
所定の属性によりグループ化された単語群である単語グループを記憶する単語辞書データベースと、
文中の単語間の文の要素に関する関係を示す木構造データについて前記単語グループを用いて抽象化した木構造パターンを記憶するルールデータベースと、を有し、
前記プロセッサは、
文の要素のうち前記単語グループが該当しない第1要素の単語および前記単語グループが該当しない第2要素の単語の組み合わせを含む対象文を取得する取得処理と、
前記取得処理によって取得された対象文が、前記文の要素のうち前記単語グループが該当する第3要素を除外した特定の木構造パターンに該当するか否かを判断する判断処理と、
前記判断処理によって前記特定の木構造パターンに該当すると判断された対象文から、前記第3要素の単語を抽出して、抽出結果を出力する抽出処理と、
を実行することを特徴とする情報処理システム。 An information processing system having a processor that executes a program and a storage device that stores the program,
a word dictionary database that stores word groups, which are word groups grouped by predetermined attributes;
a rule database that stores a tree structure pattern abstracted using the word groups for tree structure data indicating relationships between words in a sentence regarding elements of sentences;
The processor
Acquisition processing for acquiring a target sentence including a combination of a word of a first element to which the word group does not apply and a word of a second element to which the word group does not apply among sentence elements;
a determination process of determining whether or not the target sentence acquired by the acquisition process corresponds to a specific tree structure pattern obtained by excluding a third element corresponding to the word group among the elements of the sentence;
an extraction process of extracting words of the third element from the target sentence determined by the determination process to correspond to the specific tree structure pattern, and outputting an extraction result;
An information processing system characterized by executing
前記プロセッサは、
前記対象文内の前記第3要素の単語を、前記特定の木構造パターンから除外された前記第3要素に該当する単語グループに登録する登録処理を実行することを特徴とする情報処理システム。 The information processing system according to claim 1,
The processor
An information processing system, characterized by executing a registration process of registering a word of the third element in the target sentence in a word group corresponding to the third element excluded from the specific tree structure pattern.
前記抽出処理では、前記プロセッサは、前記抽出結果を表示可能に出力することを特徴とする情報処理システム。 The information processing system according to claim 1,
The information processing system, wherein in the extraction process, the processor outputs the extraction result in a displayable manner.
前記プロセッサは、
前記抽出結果の表示後に登録指示入力があった場合、前記対象文内の前記第3要素の単語を、前記特定の木構造パターンから除外された前記第3要素に該当する単語グループに登録する登録処理を実行することを特徴とする情報処理システム。 The information processing system according to claim 3,
The processor
registration for registering the word of the third element in the target sentence in a word group corresponding to the third element excluded from the specific tree structure pattern when a registration instruction is input after the extraction result is displayed; An information processing system characterized by executing processing.
文の集合を記憶するデータストアを有し、
前記プロセッサは、
前記第1要素の単語および前記第2要素の単語の組み合わせにより構成される文が前記データストアに存在するか否かを確認し、確認結果を出力する確認処理を実行することを特徴とする情報処理システム。 The information processing system according to claim 1,
having a data store that stores a set of sentences;
The processor
Information characterized by executing confirmation processing for confirming whether or not a sentence composed of a combination of a word of the first element and a word of the second element exists in the data store, and outputting a confirmation result. processing system.
文の集合を記憶するデータストアを有し、
前記プロセッサは、
前記第1要素の単語および前記第2要素の単語の組み合わせにより構成される文が前記データストアに存在するか否かを確認する確認処理を実行し、
前記登録処理では、前記プロセッサは、前記確認処理によって前記第1要素の単語および前記第2要素の単語の組み合わせにより構成される文が前記データストアに存在しないと確認された場合、前記対象文内の前記第3要素の単語を、前記特定の木構造パターンから除外された前記第3要素に該当する単語グループに登録する、
ことを特徴とする情報処理システム。 The information processing system according to claim 2,
having a data store that stores a set of sentences;
The processor
performing a confirmation process for confirming whether a sentence composed of a combination of the words of the first element and the words of the second element exists in the data store;
In the registration process, if the confirmation process confirms that a sentence composed of a combination of the word of the first element and the word of the second element does not exist in the data store, the processor performs registering the word of the third element in the word group corresponding to the third element excluded from the specific tree structure pattern;
An information processing system characterized by:
文の集合を記憶するデータストアを有し、
前記プロセッサは、
前記第1要素の単語および前記第2要素の単語の組み合わせにより構成される文が前記データストアに存在するか否かを確認する確認処理を実行し、
前記プロセッサは、
前記確認処理によって前記第1要素の単語および前記第2要素の単語の組み合わせにより構成される文が前記データストアに存在しないと確認され、かつ、前記抽出結果の表示後に登録指示入力があった場合、前記対象文内の前記第3要素の単語を、前記特定の木構造パターンから除外された前記第3要素に該当する単語グループに登録する登録処理を実行することを特徴とする情報処理システム。 The information processing system according to claim 3,
having a data store that stores a set of sentences;
The processor
performing a confirmation process for confirming whether a sentence composed of a combination of the words of the first element and the words of the second element exists in the data store;
The processor
When it is confirmed by the confirmation process that a sentence composed of a combination of the word of the first element and the word of the second element does not exist in the data store, and a registration instruction is input after the extraction result is displayed 7. An information processing system, characterized by executing a registration process of registering the word of the third element in the target sentence in a word group corresponding to the third element excluded from the specific tree structure pattern.
前記プロセッサは、
文の要素のうち前記単語グループが該当しない第1要素の単語および前記単語グループが該当しない第2要素の単語の組み合わせを含む対象文を取得する取得処理と、
前記取得処理によって取得された対象文が、前記文の要素のうち前記単語グループが該当する第3要素を除外した特定の木構造パターンに該当するか否かを判断する判断処理と、
前記判断処理によって前記特定の木構造パターンに該当すると判断された対象文から、前記第3要素の単語を抽出して、抽出結果を出力する抽出処理と、
を実行することを特徴とする情報処理方法。 A processor that executes a program, a storage device that stores the program, a word dictionary database that stores word groups that are groups of words grouped according to a predetermined attribute, and a relationship between words in a sentence regarding sentence elements. An information processing method by an information processing system having a rule database for storing a tree structure pattern abstracted from the tree structure data using the word group,
The processor
Acquisition processing for acquiring a target sentence including a combination of a word of a first element to which the word group does not apply and a word of a second element to which the word group does not apply among sentence elements;
a determination process of determining whether or not the target sentence acquired by the acquisition process corresponds to a specific tree structure pattern obtained by excluding a third element corresponding to the word group among the elements of the sentence;
an extraction process of extracting words of the third element from the target sentence determined by the determination process to correspond to the specific tree structure pattern, and outputting an extraction result;
An information processing method characterized by executing
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018202130A JP7168411B2 (en) | 2018-10-26 | 2018-10-26 | Information processing system and information processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018202130A JP7168411B2 (en) | 2018-10-26 | 2018-10-26 | Information processing system and information processing method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020067971A JP2020067971A (en) | 2020-04-30 |
JP7168411B2 true JP7168411B2 (en) | 2022-11-09 |
Family
ID=70388526
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018202130A Active JP7168411B2 (en) | 2018-10-26 | 2018-10-26 | Information processing system and information processing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7168411B2 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7255533B2 (en) * | 2020-04-04 | 2023-04-11 | 株式会社三洋物産 | game machine |
JP7255532B2 (en) * | 2020-04-04 | 2023-04-11 | 株式会社三洋物産 | game machine |
JP7255535B2 (en) * | 2020-04-04 | 2023-04-11 | 株式会社三洋物産 | game machine |
JP7255536B2 (en) * | 2020-04-04 | 2023-04-11 | 株式会社三洋物産 | game machine |
CN112434170B (en) * | 2020-11-25 | 2024-09-17 | 深圳前海微众银行股份有限公司 | Dictionary updating method and device |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005135039A (en) | 2003-10-29 | 2005-05-26 | Advanced Telecommunication Research Institute International | Machine translation apparatus and machine translation program |
US20060200338A1 (en) | 2005-03-04 | 2006-09-07 | Microsoft Corporation | Method and system for creating a lexicon |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3442422B2 (en) * | 1993-03-15 | 2003-09-02 | 株式会社東芝 | Synonym information creation apparatus and method |
-
2018
- 2018-10-26 JP JP2018202130A patent/JP7168411B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005135039A (en) | 2003-10-29 | 2005-05-26 | Advanced Telecommunication Research Institute International | Machine translation apparatus and machine translation program |
US20060200338A1 (en) | 2005-03-04 | 2006-09-07 | Microsoft Corporation | Method and system for creating a lexicon |
Also Published As
Publication number | Publication date |
---|---|
JP2020067971A (en) | 2020-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7168411B2 (en) | Information processing system and information processing method | |
US6269189B1 (en) | Finding selected character strings in text and providing information relating to the selected character strings | |
Bouma et al. | Alpino: Wide-coverage computational analysis of Dutch | |
JP4644420B2 (en) | Method and machine-readable storage device for retrieving and presenting data over a network | |
US8484238B2 (en) | Automatically generating regular expressions for relaxed matching of text patterns | |
JP5392077B2 (en) | Ontology processing apparatus, ontology processing method, and ontology processing program | |
Rundell et al. | Automating the creation of dictionaries | |
JPWO2003012679A1 (en) | Data processing method, data processing system and program | |
JP2002297605A (en) | Method and device for structured document retrieval, and program | |
WO2020100553A1 (en) | Question-and-answer data generation device and question-and-answer data generation method | |
Jabbar et al. | A survey on Urdu and Urdu like language stemmers and stemming techniques | |
KR20050031872A (en) | Label system-translation of text and multi-language support at runtime and design | |
JP2020113129A (en) | Document evaluation device, document evaluation method, and program | |
CN113886527A (en) | Natural language semantic extraction method and system | |
JP7103763B2 (en) | Information processing system and information processing method | |
JP2014010758A (en) | File management device, file management method, and program | |
JP2017199348A (en) | Database management device and method | |
US20060248037A1 (en) | Annotation of inverted list text indexes using search queries | |
WO2015177861A1 (en) | Device and method for generating training data | |
JP3139658B2 (en) | Document display method | |
JP5025960B2 (en) | Dictionary creation device | |
KR100659370B1 (en) | Method for constructing a document database and method for searching information by matching thesaurus | |
JP2005202924A (en) | Translation determination system, method, and program | |
JP7227705B2 (en) | Natural language processing device, search device, natural language processing method, search method and program | |
Yanai et al. | StruAP: A Tool for Bundling Linguistic Trees through Structure-based Abstract Pattern |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210319 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220311 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220412 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220610 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221018 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221027 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7168411 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |