JP6652355B2 - Information extraction device, method and program - Google Patents

Information extraction device, method and program Download PDF

Info

Publication number
JP6652355B2
JP6652355B2 JP2015181567A JP2015181567A JP6652355B2 JP 6652355 B2 JP6652355 B2 JP 6652355B2 JP 2015181567 A JP2015181567 A JP 2015181567A JP 2015181567 A JP2015181567 A JP 2015181567A JP 6652355 B2 JP6652355 B2 JP 6652355B2
Authority
JP
Japan
Prior art keywords
information
teacher
target
worker
presentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015181567A
Other languages
Japanese (ja)
Other versions
JP2017058816A (en
Inventor
祐一 宮村
祐一 宮村
昌之 岡本
昌之 岡本
彩奈 山本
彩奈 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2015181567A priority Critical patent/JP6652355B2/en
Publication of JP2017058816A publication Critical patent/JP2017058816A/en
Application granted granted Critical
Publication of JP6652355B2 publication Critical patent/JP6652355B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明の実施形態は、情報抽出装置、方法およびプログラムに関する。   An embodiment of the present invention relates to an information extraction device, a method, and a program.

ビッグデータ活用の機運の高まりに伴い、データ中からユーザが望む情報を抽出するニーズが増加している。ユーザが望む情報は様々であるため、情報の種類ごとに抽出規則を用意する必要がある。そのため、低コストで抽出規則を作成することが望まれる。
抽出規則の作成には、機械学習を用いる方法が挙げられるが、そのためには、教師情報の作成と学習素性(手がかり語など)の設計とが必要となる。学習素性の設計において、機械学習に見識のない一般人では、何が有効な学習素性であるか判断できないことが多いため、機械学習に見識のある専門家が行うことが多く、結果としてコストおよび時間がかかるという問題がある。
With the growing momentum for utilizing big data, there is an increasing need to extract information desired by users from data. Since the information desired by the user is various, it is necessary to prepare an extraction rule for each type of information. Therefore, it is desired to create the extraction rules at low cost.
A method using machine learning can be used to create the extraction rules. For that purpose, it is necessary to create teacher information and design learning features (such as clue words). In designing learning features, it is often difficult for ordinary people who do not have knowledge of machine learning to determine what is a valid learning feature. There is a problem that it takes.

低コストで手がかり語を見つけ出す方法として、単語を組み合わせて抽出規則(素性、手がかり語)を作成し、抽出規則を評価することで、有効な抽出規則を作成する技術がある。   As a method of finding a clue word at low cost, there is a technique of creating an extraction rule (feature, clue word) by combining words and evaluating the extraction rule to create an effective extraction rule.

特開2010−262332号公報JP 2010-262332 A

しかしながら、上述の技術を用いて学習素性を抽出する場合は、抽出規則の評価として、テキスト内で抽出規則が適合する箇所の偏りを用いるために、偏りが少ない方が高評価となる。よって、汎用的な素性の評価が高くなり、一部の分野に特有な素性は採用(選択)されないことが多くなる。   However, when the learning feature is extracted by using the above-described technique, the evaluation of the extraction rule uses the bias of the portion where the extraction rule matches in the text. Therefore, evaluation of general-purpose features is high, and features unique to some fields are often not adopted (selected).

本開示は、上述の課題を解決するためになされたものであり、適切な素性を抽出できる情報抽出装置、方法およびプログラムを提供することを目的とする。   The present disclosure has been made to solve the above-described problems, and has as its object to provide an information extraction device, a method, and a program that can extract an appropriate feature.

本実施形態に係る情報抽出装置は、格納部、抽出部および推定部を含む。格納部は、情報付与の対象となる対象情報と作業者の該対象情報に対する処理結果とをそれぞれ含む複数の第1教師情報を格納する。抽出部は、前記複数の第1教師情報から、同一の対象情報かつ異なる処理結果を含む複数の第2教師情報を抽出する。推定部は、前記複数の第2教師情報間の差分から、前記異なる処理結果に至る手がかりとなる有効素性を推定する。   The information extraction device according to the present embodiment includes a storage unit, an extraction unit, and an estimation unit. The storage unit stores a plurality of pieces of first teacher information each including target information to which information is to be added and a processing result of the worker with respect to the target information. The extracting unit extracts a plurality of second teacher information including the same target information and different processing results from the plurality of first teacher information. The estimating unit estimates an effective feature that is a clue to the different processing result from the difference between the plurality of pieces of second teacher information.

第1の実施形態に係る情報抽出装置を示すブロック図。FIG. 1 is a block diagram illustrating an information extraction device according to a first embodiment. 教師情報格納部に格納される教師情報の具体例を示す図。The figure which shows the specific example of the teacher information stored in a teacher information storage part. 情報抽出装置の有効素性の推定処理を示すフローチャート。9 is a flowchart illustrating an effective feature estimation process of the information extraction device. 第2の実施形態に係る情報抽出装置を示すブロック図。FIG. 6 is a block diagram showing an information extraction device according to a second embodiment. 対象情報の一例を示す図。The figure which shows an example of object information. 作業用情報作成部における作業用情報の作成処理を示すフローチャート。9 is a flowchart illustrating a process of creating work information in a work information creation unit. 作業用情報の一例を示す図。The figure which shows an example of the information for work. 第3の実施形態に係る情報抽出装置を示すブロック図。FIG. 9 is a block diagram showing an information extraction device according to a third embodiment. 作業部で行われる作業の一例を示す図。The figure which shows an example of the work performed in the work part. 作業部における有効素性の提示例を示す図。The figure which shows the example of presentation of the effective feature in a working part.

本実施形態では、クラウドソーシングなどによって作成された教師情報を元に、有効な素性を推定する場合を想定する。   In the present embodiment, it is assumed that effective features are estimated based on teacher information created by crowdsourcing or the like.

以下、図面を参照しながら本実施形態に係る情報抽出装置、方法およびプログラムについて詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作をおこなうものとして、重複する説明を適宜省略する。   Hereinafter, the information extraction device, method, and program according to the present embodiment will be described in detail with reference to the drawings. In the following embodiments, portions denoted by the same reference numerals perform the same operation, and duplicate description will be omitted as appropriate.

(第1の実施形態)
第1の実施形態に係る情報抽出装置について図1のブロック図を参照して説明する。
第1の実施形態に係る情報抽出装置100は、教師情報格納部101、教師情報抽出部102(第1抽出部ともいう)および有効素性推定部103(第2抽出部ともいう)を含む。
(First embodiment)
The information extraction device according to the first embodiment will be described with reference to the block diagram of FIG.
The information extraction device 100 according to the first embodiment includes a teacher information storage unit 101, a teacher information extraction unit 102 (also referred to as a first extraction unit), and an effective feature estimation unit 103 (also referred to as a second extraction unit).

教師情報格納部101は、外部から複数の教師情報(第1教師情報)を受け取って格納する。教師情報は、作業者による情報付与の対象となる対象情報と作業者の対象情報に対する処理結果とを含む情報である。教師情報の具体例については、図2を参照して後述する。   The teacher information storage unit 101 receives and stores a plurality of teacher information (first teacher information) from outside. The teacher information is information including target information to which information is added by the worker and a processing result of the target information of the worker. A specific example of the teacher information will be described later with reference to FIG.

教師情報抽出部102は、教師情報格納部101に格納される複数の教師情報の中から、同一の対象情報かつ異なる処理結果を含む複数の教師情報(第2教師情報)を抽出する。   The teacher information extraction unit 102 extracts a plurality of pieces of teacher information (second teacher information) including the same target information and different processing results from the plurality of pieces of teacher information stored in the teacher information storage unit 101.

有効素性推定部103は、教師情報抽出部102から複数の教師情報を受け取る。有効素性推定部103は、同一の対象情報かつ異なる処理結果を含む複数の教師情報間の差分から、有効素性を推定(抽出)する。有効素性は、作業者の処理結果に至る手がかりとなる情報であって学習素性として有効な素性である。   The effective feature estimating unit 103 receives a plurality of pieces of teacher information from the teacher information extracting unit 102. The effective feature estimating unit 103 estimates (extracts) an effective feature from a difference between a plurality of pieces of teacher information including the same target information and different processing results. The effective feature is information that is a clue to a worker's processing result and is an effective feature as a learning feature.

次に、教師情報格納部101に格納される教師情報の具体例について図2を参照して説明する。
図2に示すテーブル200には、文ID201、文202、単語列203、処理対象ID204、提示範囲205および処理結果206がそれぞれ対応付けられて、教師情報210として格納される。本実施形態では、固有表現の判定結果を教師情報とする場合を想定する。
Next, a specific example of teacher information stored in the teacher information storage unit 101 will be described with reference to FIG.
In the table 200 shown in FIG. 2, a sentence ID 201, a sentence 202, a word string 203, a processing target ID 204, a presentation range 205, and a processing result 206 are associated with each other and stored as teacher information 210. In the present embodiment, it is assumed that the determination result of the named entity is used as teacher information.

文ID201は、文202を一意に識別する識別子である。文202は、文のデータ本体である。単語列203は、文202を構成する単語であり、ここでは、文202を単語ごとに区切ったときの、単語と単語を一意に識別する識別子との組を示す。なお、単語列203は、文を形態素解析することにより得られる形態素と、得られた形態素を一意に識別する識別子との組であってもよい。   The sentence ID 201 is an identifier that uniquely identifies the sentence 202. The sentence 202 is the data body of the sentence. The word string 203 is a word constituting the sentence 202. Here, when the sentence 202 is divided for each word, the word string 203 indicates a set of words and an identifier for uniquely identifying the word. Note that the word string 203 may be a set of a morpheme obtained by morphologically analyzing a sentence and an identifier for uniquely identifying the obtained morpheme.

処理対象ID204は、単語列203のうち処理の対象(情報付与の対象)となる単語であり、ここでは、単語列203の識別子を処理対象ID204とする。提示範囲205は、文202のうちの処理対象ID204に対応する単語を含む少なくとも一部分であって、作業者に提示するための文字列の範囲である。なお、作業者への提示範囲205の提示方法は、例えば、画面に提示範囲205の文字列を表示する、合成音声などにより提示範囲205の文字列を読み上げるといった、作業者が知覚できる方法であればよい。処理結果206は、作業者の処理対象ID204に対応する単語に対する処理の結果である。   The processing target ID 204 is a word to be processed (targeted for information addition) in the word string 203. Here, the identifier of the word string 203 is the processing target ID 204. The presentation range 205 is at least a portion including a word corresponding to the processing target ID 204 in the sentence 202, and is a range of a character string to be presented to an operator. Note that the presentation method of the presentation range 205 to the worker may be a method that can be perceived by the worker, such as displaying the character string of the presentation range 205 on the screen or reading out the character string of the presentation range 205 using synthesized voice. I just need. The processing result 206 is the result of the processing on the word corresponding to the processing target ID 204 of the worker.

図2の一例を挙げると、教師情報210として、文ID201「1」、文202「川崎というのが友達にいるのですが、その川崎が最近になって・・・」、単語列203「1:川崎、2:と、・・・、6:友達、・・・、13:その、14:川崎、・・・、19:て、・・・」、処理対象ID204「14」、提示範囲205「6−19」および処理結果206「人名」がそれぞれ対応付けられる。   As an example of FIG. 2, as the teacher information 210, the sentence ID 201 “1”, the sentence 202 “Kawasaki is a friend, but that Kawasaki has recently been ...”, the word string 203 “1” : Kawasaki, 2: ..., 6: Friends, ..., 13: Part, 14: Kawasaki, ..., 19: Te, ... ", processing target ID 204" 14 ", presentation range 205 “6-19” and the processing result 206 “person name” are associated with each other.

すなわち、教師情報210は、文202の14番目の単語「川崎」が処理対象の単語であり、提示範囲205として6番目から19番目までの文字列の範囲「友達にいるのですが、その川崎が最近になって」が作業者に表示され、作業者により「川崎」は人名であるという固有表現の判定がなされたことを示す。   That is, in the teacher information 210, the 14th word “Kawasaki” of the sentence 202 is a word to be processed, and the presentation range 205 is a range of character strings from the 6th to the 19th. Is recently displayed to the worker, indicating that the worker has determined the proper expression that "Kawasaki" is a personal name.

次に、情報抽出装置100の有効素性の推定処理について図3のフローチャートを参照して説明する。
ステップS301では、教師情報抽出部102が、教師情報格納部101から同じ文ID201かつ同じ処理対象ID204を有する2つの教師情報をエントリe1およびエントリe2として取得する。
Next, the effective feature estimating process of the information extracting device 100 will be described with reference to the flowchart of FIG.
In step S301, the teacher information extraction unit 102 acquires two pieces of teacher information having the same sentence ID 201 and the same processing target ID 204 from the teacher information storage unit 101 as the entry e1 and the entry e2.

ステップS302では、有効素性推定部103が、エントリe1の処理結果206とエントリe2の処理結果206とが異なるかどうかを判定する。処理結果206が異なる場合、ステップS303に進み、処理結果206が同一である場合、処理を終了する。   In step S302, the effective feature estimating unit 103 determines whether the processing result 206 of the entry e1 is different from the processing result 206 of the entry e2. If the processing results 206 are different, the process proceeds to step S303. If the processing results 206 are the same, the process ends.

ステップS303では、有効素性推定部103が、エントリe1の提示範囲205とエントリe2の提示範囲205とが異なる提示範囲であるかどうかを判定する。提示範囲205が異なる場合、ステップS304に進み、提示範囲205が異ならない、つまり同一である場合、ステップS305に進む。   In step S303, the effective feature estimating unit 103 determines whether the presentation range 205 of the entry e1 and the presentation range 205 of the entry e2 are different presentation ranges. When the presentation ranges 205 are different, the process proceeds to step S304. When the presentation ranges 205 are not different, that is, when they are the same, the process proceeds to step S305.

ステップS304では、有効素性推定部103が、エントリe1の提示範囲205とエントリe2の提示範囲205との差分の範囲から、自立語を有効素性として推定する。これは、提示範囲205の差分に含まれる文字列に、作業者の処理結果に影響を与える情報(異なる処理結果に至る手がかり)が存在すると考えられるからである。   In step S304, the effective feature estimating unit 103 estimates an independent word as an effective feature from the difference range between the presentation range 205 of the entry e1 and the presentation range 205 of the entry e2. This is because the character string included in the difference of the presentation range 205 is considered to include information (a clue to a different processing result) that affects the processing result of the worker.

ステップS305では、有効素性推定部103が、有効素性なしと判定する。なお、ステップS303が「No」である場合、すなわち、エントリe1とエントリe2とが同一の提示範囲205を有するにもかかわらず異なる処理結果206となっている場合は、作業者の単なる作業ミスまたは表記揺れである可能性が高いため、有効素性なしと判定する。   In step S305, the effective feature estimating unit 103 determines that there is no effective feature. If step S303 is "No", that is, if the entry e1 and the entry e2 have the same presentation range 205 but different processing results 206, a simple mistake of the operator or It is determined that there is no effective feature because there is a high possibility that the writing is fluctuation.

以上で有効素性推定部103の推定処理を終了する。なお、図3では、教師情報格納部101に格納される複数の教師情報の中で、教師情報抽出部102が、同じ文ID201かつ同じ処理対象ID204を有する教師情報を2つ抽出する場合を想定するが、これに限られない。例えば、同じ文ID201かつ同じ処理対象ID204を有する教師情報が3つ以上ある(3つ以上のエントリがある)場合は、3つ以上のエントリのうち、2つのエントリの組み合わせごとに図3に示す有効素性の推定処理を行えばよい。つまり、4つのエントリがあり、4つのエントリから2つのエントリを選ぶ場合は6通りの組み合わせがあるので、それぞれの組み合わせについて有効素性の推定処理を行えばよい。   Thus, the estimation process of the effective feature estimation unit 103 ends. In FIG. 3, it is assumed that the teacher information extraction unit 102 extracts two pieces of teacher information having the same sentence ID 201 and the same processing target ID 204 from among a plurality of pieces of teacher information stored in the teacher information storage unit 101. Yes, but not limited to this. For example, when there are three or more pieces of teacher information having the same sentence ID 201 and the same processing target ID 204 (there are three or more entries), FIG. 3 shows each combination of two entries among the three or more entries. The process of estimating the effective feature may be performed. That is, when there are four entries and two entries are selected from the four entries, there are six combinations, and the effective feature estimation process may be performed for each combination.

次に、図2に示す教師情報を参照して有効素性の推定処理の具体例を説明する。
図2に示す1番目の教師情報(第1エントリ)と2番目の教師情報(第2エントリ)とは、同一の文ID201「1」および同一の処理対象ID204「14」を有する。一方、処理結果206については、第1エントリは「人名」であり、第2エントリは「地名」であり、互いに異なる結果である。さらに、第1エントリは提示範囲205が「6−19」である一方、第2エントリは提示範囲205が「8−19」であり、第1エントリと第2エントリとの提示範囲205の差分は、「6−7」である。
Next, a specific example of the effective feature estimation processing will be described with reference to the teacher information shown in FIG.
The first teacher information (first entry) and the second teacher information (second entry) shown in FIG. 2 have the same sentence ID 201 “1” and the same processing target ID 204 “14”. On the other hand, regarding the processing result 206, the first entry is “person name” and the second entry is “place name”, which are different results. Further, while the first entry has the presentation range 205 of “6-19”, the second entry has the presentation range 205 of “8-19”, and the difference between the presentation range 205 of the first entry and the second entry is , “6-7”.

つまり、第1エントリの提示範囲205「友達にいるのですが、その川崎が最近になって」と第2エントリの提示範囲205「いるのですが、その川崎が最近になって」との差分の文字列「友達に」に含まれる自立語が、有効素性と推定される。ここでは自立語が「友達」のみであるため、有効素性として「友達」が推定される。   In other words, the difference between the presentation range 205 of the first entry, "I'm at a friend, but that Kawasaki has recently been", and the presentation range 205 of the second entry, "I'm here, but that Kawasaki has recently been" The independent word included in the character string “to a friend” is estimated as an effective feature. Here, since the independent word is only "friend", "friend" is estimated as the effective feature.

なお、有効素性推定部103は、自立語を有効素性として推定する場合に限らず、提示範囲205の差分に含まれる全ての文字列を有効素性として推定してもよい。また、有効素性推定部103は、「名詞」または「動詞」などの品詞で限定した単語を有効素性として推定してもよい。   Note that the effective feature estimating unit 103 is not limited to estimating the independent word as the effective feature, and may estimate all character strings included in the difference of the presentation range 205 as effective features. Further, the effective feature estimating unit 103 may estimate a word limited by a part of speech such as “noun” or “verb” as an effective feature.

自立語の判定方法および品詞の判定方法としては、様々な方法が考えられるが、例えば単語辞書(図示せず)を参照する方法がある。単語と単語が自立語か否かの情報との対応関係、または、単語と単語に対応する品詞との対応関係を含んだ単語辞書が予め用意される。有効素性推定部103が、用意された単語辞書を参照することで、自立語または品詞の判定を行うことができる。   Various methods can be considered as a method for determining an independent word and a method for determining a part of speech. For example, there is a method of referring to a word dictionary (not shown). A word dictionary including a correspondence between words and information on whether the words are independent words or a correspondence between words and parts of speech corresponding to the words is prepared in advance. By referring to the prepared word dictionary, the effective feature estimating unit 103 can determine an independent word or a part of speech.

また、品詞の判定方法の別例として、教師情報210に含まれる文202を形態素解析することで、文中の各単語の品詞を特定してもよい。また、教師情報210内に、各単語の品詞の情報または自立語か否かの情報を予め含めておき、有効素性推定部103が、有効素性の推定処理の際に、予め含めておいた品詞の情報または自立語か否かの情報を参照するようにしてもよい。   As another example of the part of speech determination method, the part of speech of each word in the sentence may be specified by performing morphological analysis on the sentence 202 included in the teacher information 210. In addition, the part-of-speech information of each word or information on whether or not the word is an independent word is previously included in the teacher information 210, and the effective feature estimation unit 103 includes Or information on whether the word is independent or not.

さらに、有効素性推定部103は、有効素性として推定される候補を予め限定してもよい。推定される候補を限定する方法として、教師情報間の提示範囲の差分に含まれる単語のうち、「最初の自立語」などのように文中での単語の位置情報を用いたり、単語間の係り受け関係を用いたりすればよい。また、有効素性推定部103は、教師情報間の提示範囲の差分の範囲に名詞が連続して出現する場合は、連続した名詞をまとめて有効素性として推定してもよい。   Further, the effective feature estimating unit 103 may previously limit the candidates estimated as effective features. As a method of limiting the estimated candidates, among the words included in the difference of the presentation range between the teacher information, the position information of the word in the sentence, such as “first independent word”, or the relation between words is used. A receiving relationship may be used. Further, when nouns appear continuously in the range of the difference between the presentation ranges of the teacher information, the effective feature estimating unit 103 may collectively estimate the continuous nouns as effective features.

以上に示した第1の実施形態によれば、教師情報の提示範囲の差分に基づいて有効素性を推定することで、適切な素性を推定(抽出)でき、機械学習の知識がない者でも、一から素性をリストアップする必要なく、容易に学習素性を設計できる。よって、学習素性の作成時間および作成コストを低減できる。また、作業者の処理結果である教師情報から有効素性を推定しているため、一部の分野で特有な単語であっても有効素性として活用することができる。これによって、有効な学習素性を活用でき、高精度な情報抽出が可能となる。   According to the first embodiment described above, an appropriate feature can be estimated (extracted) by estimating the effective feature based on the difference in the presentation range of the teacher information. A learning feature can be easily designed without having to list features from scratch. Therefore, it is possible to reduce the time and cost for creating a learning feature. Further, since the effective feature is estimated from the teacher information that is the processing result of the worker, even a word unique in some fields can be used as the effective feature. As a result, effective learning features can be utilized, and highly accurate information extraction can be performed.

(第2の実施形態)
第2の実施形態では、作業者に教師情報を作成させるための元となる情報を生成する点が第1の実施形態と異なる。
(Second embodiment)
The second embodiment is different from the first embodiment in that information that is a source for causing a worker to create teacher information is generated.

第2の実施形態に係る情報抽出装置について図4のブロック図を参照して説明する。
第2の実施形態に係る情報抽出装置400は、作業用情報作成部401、情報出力部402、結果取得部403、教師情報格納部101、教師情報抽出部102および有効素性推定部103を含む。教師情報格納部101、教師情報抽出部102および有効素性推定部103については、第1の実施形態と同様の処理であるのでここでの説明を省略する。
An information extraction device according to the second embodiment will be described with reference to the block diagram of FIG.
The information extraction device 400 according to the second embodiment includes a work information creation unit 401, an information output unit 402, a result acquisition unit 403, a teacher information storage unit 101, a teacher information extraction unit 102, and an effective feature estimation unit 103. The processing of the teacher information storage unit 101, the teacher information extraction unit 102, and the effective feature estimation unit 103 is the same as that of the first embodiment, and a description thereof will be omitted.

作業用情報作成部401は、外部から対象情報を取得する。作業用情報作成部401は、対象情報について、作業者に提示するために2つ以上の異なる提示範囲を有する複数の作業用情報を作成する。対象情報および作業用情報については、図5および図6をそれぞれ参照して後述する。   The work information creating unit 401 acquires target information from outside. The work information creating unit 401 creates a plurality of pieces of work information having two or more different presentation ranges for presenting the target information to the worker. The target information and the work information will be described later with reference to FIGS. 5 and 6, respectively.

情報出力部402は、作業用情報作成部401から複数の作業用情報を取得し、複数の作業用情報を外部に出力する。例えば、作業用情報をクラウドソーシングシステムなどに送信する(出力する)ことで、作業を依頼する。   The information output unit 402 acquires a plurality of pieces of work information from the work information creation unit 401 and outputs the plurality of pieces of work information to the outside. For example, a work is requested by transmitting (outputting) work information to a crowdsourcing system or the like.

結果取得部403は、作業者によって処理された作業用情報を教師情報として取得する。例えば、作業が依頼されたクラウドソーシングシステムから処理結果として教師情報を取得する。   The result acquisition unit 403 acquires work information processed by the worker as teacher information. For example, teacher information is acquired as a processing result from the crowdsourcing system for which the work was requested.

次に、対象情報の一例について図5を参照して説明する。
対象情報は、文ID201、文202、単語列203および処理対象ID204をそれぞれ対応付けた情報である。なお、図2に示す教師情報のうち、提示範囲205および処理結果206の項目がない情報が対象情報となる。
Next, an example of the target information will be described with reference to FIG.
The target information is information in which the sentence ID 201, the sentence 202, the word string 203, and the processing target ID 204 are associated with each other. Note that, among the teacher information shown in FIG. 2, information having no items in the presentation range 205 and the processing result 206 is the target information.

次に、作業用情報作成部401における作業用情報の作成処理について図6のフローチャートを参照して説明する。
ステップS601では、作業用情報作成部401が、対象情報を取得する。
Next, a process of creating work information in the work information creation unit 401 will be described with reference to the flowchart in FIG.
In step S601, the work information creating unit 401 acquires target information.

ステップS602では、作業用情報作成部401が、対象情報のうち処理対象ID204の値からNを減算した値を「SENTOU」として算出する。また、対象情報のうち処理対象ID204の値にNを加算した値を「MATSUBI」として算出する。なお、Nは、予め定められた正の整数であり、ここでは整数の値が語数(ここでは、単語数)に対応する。   In step S602, the work information creating unit 401 calculates, as “SENTOU”, a value obtained by subtracting N from the value of the processing target ID 204 in the target information. In addition, a value obtained by adding N to the value of the processing target ID 204 in the target information is calculated as “MATSBI”. Note that N is a predetermined positive integer, and the value of the integer corresponds to the number of words (here, the number of words).

ステップS603では、作業用情報作成部401が、「SENTOU」を1つデクリメントする。   In step S603, the work information creating unit 401 decrements “SENTOU” by one.

ステップS604では、作業用情報作成部401が、「SENTOU」が文頭に到達したかどうか、言い換えると、「SENTOU」の値と文頭文字に対応する処理対象ID204の値とが同一であるかどうかを判定する。「SENTOU」が文頭に到達した場合、処理を終了し、「SENTOU」が文頭に到達していない場合、ステップS605に進む。   In step S604, the work information creating unit 401 determines whether “SENTOU” has reached the beginning of the sentence, in other words, whether the value of “SENTOU” is the same as the value of the processing target ID 204 corresponding to the beginning of letter. Is determined. If “SENTOU” has reached the beginning of the sentence, the process ends. If “SENTOU” has not reached the beginning of the sentence, the process proceeds to step S605.

ステップS605では、作業用情報作成部401が、提示範囲を「SENTOU」から「MATSUBI」までとし、提示範囲205と対象情報とを対応付けて、作業用情報として作成する。その後、ステップS603に戻り、同様の処理を繰り返す。以上で作業用情報作成部401の作業用情報の作成処理を終了する。これによって、1つの対象情報から異なる提示範囲を有する複数の作業用情報を作成できる。   In step S605, the work information creation unit 401 sets the presentation range from “SENTOU” to “MATSUBI”, and associates the presentation range 205 with the target information to create work information. Thereafter, the process returns to step S603, and the same processing is repeated. This completes the work information creation process of the work information creation unit 401. Thereby, a plurality of pieces of work information having different presentation ranges can be created from one piece of target information.

次に、作業用情報の一例について図7を参照して説明する。
作業用情報は、文ID201、文202、単語列203、処理対象ID204および提示範囲205をそれぞれ対応付けた情報である。なお、教師情報のうち、処理結果206の項目がない情報が作業用情報となる。
Next, an example of the work information will be described with reference to FIG.
The work information is information in which the sentence ID 201, the sentence 202, the word string 203, the processing target ID 204, and the presentation range 205 are associated with each other. It should be noted that, among the teacher information, information having no item of the processing result 206 is the work information.

図6のフローチャートに示す提示範囲の決定方法は、処理対象の単語を基準として、単語の前方に向かって1単語ずつ提示範囲を拡張する場合を示すが、これに限らず、後方に1単語ずつ提示範囲を拡張する方法でもよい。または、前方と後方とを交互または同時にそれぞれ1単語ずつ減算および加算することにより、提示範囲を拡張する方法でもよい。   The method of determining the presentation range shown in the flowchart of FIG. 6 shows a case where the presentation range is extended one word at a time toward the front of the word with reference to the word to be processed. However, the present invention is not limited to this. A method of extending the presentation range may be used. Alternatively, a method of extending the presentation range by subtracting and adding one word at a time alternately or simultaneously with the front and back may be used.

また、1単語ずつという単語単位ではなく、1文字ずつ提示範囲を拡張してもよいし、文節単位で提示範囲を拡張してもよい。また、1つ前の自立語まで提示範囲を拡張するといった方法でもよい。   The presentation range may be extended one character at a time instead of one word at a time, or the presentation range may be extended at a phrase unit. Alternatively, a method of extending the presentation range to the previous independent word may be used.

さらに、処理対象の単語に基づく単語間の距離に応じた提示範囲の決定方法に限らず、ランダムに表示する単語を決定する方法、文を構文解析して作成した講文木に基づいて、構文木上で処理対象の単語に近い単語から順に提示範囲を拡張する方法でもよい。   Furthermore, the present invention is not limited to a method of determining a presentation range according to a distance between words based on a word to be processed, a method of determining a word to be displayed at random, and a syntax based on a sentence tree created by parsing a sentence. A method may be used in which the presentation range is expanded in order from the word closest to the word to be processed on the tree.

以上に示した第2の実施形態によれば、判定すべき提示範囲を決定して作業用情報を作成し、作成した作業用情報に基づく教師情報を得ることができる。また、第1の実施形態と同様に、教師情報の提示範囲の差分に基づいて有効素性を推定することで、学習素性の作成時間および作成コストを低減でき、適切な素性を推定(抽出)できる。さらに、有効な学習素性を活用でき、高精度な情報抽出が可能となる。   According to the second embodiment described above, it is possible to determine the presentation range to be determined, create work information, and obtain teacher information based on the created work information. Further, as in the first embodiment, by estimating the effective feature based on the difference in the presentation range of the teacher information, the time and cost for creating the learning feature can be reduced, and an appropriate feature can be estimated (extracted). . Furthermore, effective learning features can be utilized, and highly accurate information extraction can be performed.

(第3の実施形態)
第3の実施形態では、作業用情報に対する作業者の処理(例えば、作業者からのデータ入力)を受け付ける点が上述の実施形態と異なる。
(Third embodiment)
The third embodiment is different from the above-described embodiment in that a worker process (for example, data input from a worker) for work information is received.

第3の実施形態に係る情報抽出装置について図8のブロック図を参照して説明する。
第3の実施形態に係る情報抽出装置800は、作業用情報作成部401、情報出力部402、結果取得部403、教師情報格納部101、教師情報抽出部102、有効素性推定部103および作業部801を含む。
An information extraction device according to the third embodiment will be described with reference to the block diagram of FIG.
The information extraction device 800 according to the third embodiment includes a work information creation unit 401, an information output unit 402, a result acquisition unit 403, a teacher information storage unit 101, a teacher information extraction unit 102, an effective feature estimation unit 103, and a work unit. 801.

作業部801以外の動作については、第2の実施形態と同様であるので、ここでの説明を省略する。   Operations other than the operation unit 801 are the same as those in the second embodiment, and a description thereof will not be repeated.

作業部801は、情報出力部402から複数の作業用情報を受け取り、作業者に複数の作業用情報を提示する。作業部801は、作業用情報に対する処理、例えば作業者からのデータ入力を処理結果として受け付け、処理結果に基づいて複数の教師情報を作成する。また、作業部801は、後段の有効素性推定部103により推定された有効素性を受け取り、作業者に有効素性を提示する。   The work unit 801 receives a plurality of pieces of work information from the information output unit 402 and presents a plurality of pieces of work information to a worker. The work unit 801 receives a process for work information, for example, data input from a worker as a process result, and creates a plurality of teacher information based on the process result. Further, the working unit 801 receives the effective features estimated by the effective feature estimating unit 103 at the subsequent stage, and presents the effective features to the worker.

次に、作業部801で行われる作業の一例について図9を参照して説明する。
図9は、クラウドソーシングシステムによる情報付与(判定)作業を行わせる場合の作業部801の表示例であり、図7の第1エントリの作業用情報を表示したものである。情報付与作業が固有表現抽出の場合、付与作業の回答の種類が予め定まっていることが一般的である。
Next, an example of an operation performed by the operation unit 801 will be described with reference to FIG.
FIG. 9 is a display example of the work unit 801 in a case where the information adding (judgment) work is performed by the crowdsourcing system, in which the work information of the first entry in FIG. 7 is displayed. When the information adding operation is named entity extraction, it is general that the type of answer of the adding operation is predetermined.

作業者に対して「問:次の文中の下線付き単語のカテゴリを答えなさい」と質問を表示し、提示範囲205に対応する「友達がいるのですが、その川崎が最近になって」が表示される。ここでは、「人名」、「地名」、「組織名」、「その他」などが予め選択肢として表示される。ただし、必ずしも選択肢型である必要はなく、自由記述型でもよい。表示された作業画面に対してユーザが回答を入力すると、作業部801がユーザの回答に基づいて処理結果を生成し、最終的に教師情報が生成される。ここでは、作業者が「人名」にチェックを入れることで、図2に示す第1エントリのような教師情報を得ることができる。   A question is displayed to the operator asking "Question: What is the category of the underlined word in the following sentence?", And the message "I have a friend, but recently Kawasaki" corresponding to the presentation range 205 Is displayed. Here, “person name”, “place name”, “organization name”, “others” and the like are displayed in advance as options. However, it is not always necessary to be an option type, and a free description type may be used. When the user inputs an answer to the displayed work screen, the working unit 801 generates a processing result based on the user's answer, and finally, teacher information is generated. Here, by checking the "person name" by the operator, teacher information such as the first entry shown in FIG. 2 can be obtained.

次に、作業部801における有効素性の提示例について図10を参照して説明する。
図10に示すように、作業部801は、作業者に対して、有効素性推定部103により推定された有効素性の確認を促してもよい。有効素性の確認のタイミングとしては、例えば、作業者が「人名」をチェックした後に、有効素性の推定処理が実行されたとすると、確認ウィンドウ1001に「単語『友達』は判定の参考になりましたか?」といった確認を促す文が表示される。
Next, an example of presenting effective features in the work unit 801 will be described with reference to FIG.
As illustrated in FIG. 10, the work unit 801 may prompt the worker to confirm the effective feature estimated by the effective feature estimation unit 103. As the timing of validity feature confirmation, for example, assuming that the worker checks the "person name" and then executes the validity feature estimation process, the confirmation window 1001 displays the message "Was the word" friend "helpful in making a decision?""?" Is displayed.

なお、有効素性推定部103は、作業者によって確認ウィンドウ1001中の「はい」がチェックされている場合、有効素性の推定は正しいとして、提示した有効素性(ここでは、「友達」)の確からしさを示す度合い(確信度)を増加させてもよい。   When the operator checks “Yes” in the confirmation window 1001, the effective feature estimating unit 103 determines that the estimation of the effective feature is correct, and determines the certainty of the presented effective feature (here, “friend”). May be increased.

有効素性と確信度とを対応付けておくことで、他のアプリケーションなどで本実施形態の有効素性の推定処理により生成された有効素性を用いる際に、確信度の高い学習素性を用いることができる。   By associating the effective feature with the certainty factor, a learning feature with a high certainty factor can be used when using the effective feature generated by the effective feature estimation process of the present embodiment in another application or the like. .

以上に示した第3の実施形態によれば、作業部により、作業者に対して作業用情報を提示して作業をさせることができる。作業部が作業者に対して有効素性を提示することによって、有効素性を学習により精度を向上させ、精度の高い学習素性を提示することができる。また、第1の実施形態と同様に、学習素性の作成時間および作成コストを低減でき、適切な素性(抽出)を推定できる。さらに、有効な学習素性を活用でき、高精度な情報抽出が可能となる。   According to the third embodiment described above, the work unit can present the work information to the worker to perform the work. By the working unit presenting the effective features to the worker, the accuracy of the effective features can be improved by learning, and a highly accurate learning feature can be presented. Further, similarly to the first embodiment, it is possible to reduce the learning feature creation time and creation cost, and to estimate an appropriate feature (extraction). Furthermore, effective learning features can be utilized, and highly accurate information extraction can be performed.

上述した実施形態では、固有表現の判定結果を教師情報とする例を説明したが、これに限らず、親子関係の抽出といった複数の単語に関わる情報抽出でも同様に実施できる。親子関係の抽出とは、人名Aと人名Bとの間に親子関係が存在するかどうかを判定する処理である。
例えば、AさんはBさんの第一子として生まれ・・・」という文において、提示範囲が「AさんはBさんの第一子」である場合、作業者によって「親子関係あり」と判定される。一方、同一の文において提示範囲が「AさんはBさんの」である場合、作業者によって「親子関係なし」または「親子関係不明」と判定される。これらの判定結果を教師情報とする場合、有効素性推定部103は、提示範囲の差分から「第一子」を有効素性として推定することができる。
In the above-described embodiment, an example has been described in which the determination result of the named entity is used as the teacher information. However, the present invention is not limited to this, and information extraction relating to a plurality of words such as extraction of a parent-child relationship can be similarly performed. The extraction of the parent-child relationship is a process of determining whether a parent-child relationship exists between the personal name A and the personal name B.
For example, in the sentence "Mr. A is born as the first child of B ...", if the presentation range is "Mr. A is the first child of Ms. B", the worker determines that there is a parent-child relationship. You. On the other hand, when the presentation range is “Mr. A is B” in the same sentence, the worker determines that “the parent-child relationship is not” or “the parent-child relationship is unknown”. When these determination results are used as teacher information, the effective feature estimating unit 103 can estimate “first child” as the effective feature from the difference in the presentation range.

また、上述した実施形態では、情報抽出装置の例として、文に対する有効素性の推定処理を説明したが、これに限らず、例えば画像を教師情報として、顔画像からの年齢判定または性別判定といった情報付与を行なってもよい。提示範囲として、作業者に表示するための顔画像の範囲を「目と鼻」の部分画像、「目と鼻と口」の部分画像といったように複数通り用意する。これによって、提示範囲が異なる複数の作業情報と同様に扱うことができる。
例えば、提示範囲が「目と鼻」の部分画像である教師情報の性別判定結果が「男」、提示範囲が「目と鼻と口」の部分画像である教師情報の性別判定結果が「女」であれば、提示範囲の差分である「口」の画像が性別判定において有効素性であるといった判定ができる。
Further, in the above-described embodiment, the process of estimating the effective feature of a sentence has been described as an example of the information extraction device. However, the present invention is not limited to this. You may give. As the presentation range, a plurality of ranges of the face image to be displayed to the worker are prepared, such as a partial image of "eyes and nose" and a partial image of "eyes, nose and mouth". As a result, it is possible to handle a plurality of pieces of work information having different presentation ranges in the same manner.
For example, the gender determination result of the teacher information whose presentation range is a partial image of “eyes and nose” is “male”, and the gender determination result of the teacher information whose presentation range is a partial image of “eyes, nose and mouth” is “female” , It can be determined that the image of the “mouth”, which is the difference between the presentation ranges, is an effective feature in the gender determination.

上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した情報抽出装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RW、Blu−ray(登録商標)Discなど)、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態の情報抽出装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
The instructions shown in the processing procedure shown in the above-described embodiment can be executed based on a program that is software. A general-purpose computer system stores this program in advance, and by reading this program, it is also possible to obtain the same effects as those of the above-described information extraction device. The instructions described in the above-described embodiments are, as programs that can be executed by a computer, magnetic disks (flexible disks, hard disks, etc.) and optical disks (CD-ROM, CD-R, CD-RW, DVD-ROM, DVD ± R, DVD ± RW, Blu-ray (registered trademark) Disc, etc.), a semiconductor memory, or a recording medium similar thereto. As long as the recording medium is readable by a computer or an embedded system, its storage format may be any. If the computer reads the program from the recording medium and causes the CPU to execute the instructions described in the program based on the program, the same operation as the information extraction device of the above-described embodiment can be realized. Of course, when the computer acquires or reads the program, the program may be acquired or read through a network.
Also, an OS (Operating System) running on the computer, database management software, MW (Middleware) such as a network, etc. realize the present embodiment based on instructions of a program installed in the computer or the embedded system from the recording medium. May be executed.
Further, the recording medium in the present embodiment is not limited to a medium independent of a computer or an embedded system, but also includes a recording medium in which a program transmitted through a LAN, the Internet, or the like is downloaded and stored or temporarily stored.
Further, the number of recording media is not limited to one, and a case where the processing in the present embodiment is executed from a plurality of media is also included in the recording medium in the present embodiment, and the configuration of the medium may be any configuration.

なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
Note that the computer or the embedded system according to the present embodiment is for executing each process according to the present embodiment based on a program stored in a recording medium, and includes an apparatus including one such as a personal computer and a microcomputer. This device may have any configuration such as a system in which the devices are connected to a network.
Further, the computer in the present embodiment is not limited to a personal computer, but also includes an arithmetic processing unit, a microcomputer, and the like included in an information processing device, and is a general term for devices and devices that can realize the functions in the present embodiment by programs. ing.

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。   Although several embodiments of the present invention have been described, these embodiments are provided by way of example and are not intended to limit the scope of the invention. These new embodiments can be implemented in other various forms, and various omissions, replacements, and changes can be made without departing from the spirit of the invention. These embodiments and their modifications are included in the scope and gist of the invention, and are also included in the invention described in the claims and their equivalents.

100,400,800・・・情報抽出装置、101・・・教師情報格納部、102・・・教師情報抽出部、103・・・有効素性推定部、200・・・テーブル、201・・・文ID、202・・・文、203・・・単語列、204・・・処理対象ID、205・・・提示範囲、206・・・処理結果、210・・・教師情報、401・・・作業用情報作成部、402・・・情報出力部、403・・・結果取得部、801・・・作業部、1001・・・確認ウィンドウ。 100, 400, 800 ... information extraction device, 101 ... teacher information storage unit, 102 ... teacher information extraction unit, 103 ... effective feature estimation unit, 200 ... table, 201 ... sentence ID, 202 ... sentence, 203 ... word string, 204 ... processing target ID, 205 ... presentation range, 206 ... processing result, 210 ... teacher information, 401 ... work Information creation unit, 402: information output unit, 403: result acquisition unit, 801: working unit, 1001: confirmation window.

Claims (7)

情報付与の対象となる対象情報と、作業者の該対象情報に対する処理結果と、前記対象情報のうちの少なくとも一部分であって前記作業者に提示するための提示範囲とをそれぞれ含む複数の第1教師情報を格納する格納部と、
前記複数の第1教師情報から、同一の対象情報かつ異なる処理結果を含む複数の第2教師情報を抽出する第1抽出部と、
前記複数の第2教師情報のそれぞれに含まれる前記提示範囲の差分から、前記異なる処理結果に至る手がかりとなる情報を抽出する第2抽出部と、を具備する情報抽出装置。
A plurality of first information items each including target information to be given information, a processing result of the worker for the target information, and a presentation range for presenting to the worker at least a part of the target information; A storage unit for storing teacher information,
A first extraction unit configured to extract a plurality of second teacher information including the same target information and different processing results from the plurality of first teacher information;
A second extraction unit configured to extract, from a difference between the presentation ranges included in each of the plurality of pieces of second teacher information, clues that lead to the different processing results.
前記対象情報は、文と、該文を構成する単語を示す単語列と、該単語列のうち処理の対象となる単語を示す処理対象とを含み、
前記複数の第1教師情報および前記複数の第2教師情報は、前記文のうちの前記処理対象を含む少なくとも一部分であって前記作業者に提示するための提示範囲をさらに含む請求項1に記載の情報抽出装置。
The target information includes a sentence, a word string indicating a word constituting the sentence, and a processing target indicating a word to be processed in the word string,
2. The plurality of first teacher information and the plurality of second teacher information are at least a part of the sentence including the processing target, and further include a presentation range for presenting to the worker. Information extraction device.
1つの対象情報から複数の異なる提示範囲を作成し、該提示範囲のそれぞれと前記1つの対象情報とを対応付けた複数の作業用情報を作成する作成部と、
前記複数の作業用情報を出力する出力部と、
前記複数の作業用情報と前記作業者の該複数の作業用情報に対する処理結果とをそれぞれ対応付けて前記複数の第1教師情報として取得する取得部と、をさらに具備する請求項1または請求項2に記載の情報抽出装置。
A creating unit that creates a plurality of different presentation ranges from one target information, and creates a plurality of work information items in which each of the presentation ranges is associated with the one target information;
An output unit that outputs the plurality of work information;
2. The acquisition device according to claim 1, further comprising: an acquisition unit configured to associate the plurality of pieces of work information with a processing result of the worker with respect to the plurality of pieces of work information and acquire the plurality of pieces of first teacher information. 3. The information extraction device according to 2.
前記作業者から前記複数の作業用情報に対する処理を受け付ける作業部をさらに具備する請求項3に記載の情報抽出装置。   The information extraction device according to claim 3, further comprising a work unit configured to receive a process for the plurality of pieces of work information from the worker. 前記提示範囲は、前記対象情報を基準として前方および後方の少なくともどちらか一方に単語単位または文節単位で拡張した範囲である請求項2から請求項4のいずれか1項に記載の情報抽出装置。   The information extraction device according to any one of claims 2 to 4, wherein the presentation range is a range extended in at least one of a forward direction and a backward direction on a word or phrase basis with respect to the target information. 情報付与の対象となる対象情報と、作業者の該対象情報に対する処理結果と、前記対象情報のうちの少なくとも一部分であって前記作業者に提示するための提示範囲とをそれぞれ含む複数の第1教師情報から、第1抽出部が同一の対象情報かつ異なる処理結果を含む複数の第2教師情報を抽出し、
第2抽出部が、前記複数の第2教師情報のそれぞれに含まれる前記提示範囲の差分から、前記異なる処理結果に至る手がかりとなる情報を抽出する情報抽出方法。
A plurality of first information items each including target information to be given information, a processing result of the worker for the target information, and a presentation range for presenting to the worker at least a part of the target information; teacher information or et al., the first extraction unit extracts the plurality of second instruction information including the same object information and different processing results,
An information extraction method , wherein a second extraction unit extracts information that is a key to the different processing result from a difference between the presentation ranges included in each of the plurality of pieces of second teacher information.
コンピュータを、
情報付与の対象となる対象情報と、作業者の該対象情報に対する処理結果と、前記対象情報のうちの少なくとも一部分であって前記作業者に提示するための提示範囲とをそれぞれ含む複数の第1教師情報を格納する格納手段と、
前記複数の第1教師情報から、同一の対象情報かつ異なる処理結果を含む複数の第2教師情報を抽出する第1抽出手段と、
前記複数の第2教師情報のそれぞれに含まれる前記提示範囲の差分から、前記異なる処理結果に至る手がかりとなる情報を抽出する第2抽出手段として機能させるための情報抽出プログラム。
Computer
A plurality of first information items each including target information to be given information, a processing result of the worker for the target information, and a presentation range for presenting to the worker at least a part of the target information; Storage means for storing teacher information;
First extraction means for extracting, from the plurality of first teacher information, a plurality of second teacher information including the same target information and different processing results;
An information extraction program for functioning as second extraction means for extracting information serving as clues leading to the different processing results from a difference between the presentation ranges included in each of the plurality of pieces of second teacher information.
JP2015181567A 2015-09-15 2015-09-15 Information extraction device, method and program Active JP6652355B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015181567A JP6652355B2 (en) 2015-09-15 2015-09-15 Information extraction device, method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015181567A JP6652355B2 (en) 2015-09-15 2015-09-15 Information extraction device, method and program

Publications (2)

Publication Number Publication Date
JP2017058816A JP2017058816A (en) 2017-03-23
JP6652355B2 true JP6652355B2 (en) 2020-02-19

Family

ID=58390218

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015181567A Active JP6652355B2 (en) 2015-09-15 2015-09-15 Information extraction device, method and program

Country Status (1)

Country Link
JP (1) JP6652355B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102171491B1 (en) * 2017-12-21 2020-10-29 동의대학교 산학협력단 Method for sorting products using deep learning

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3899414B2 (en) * 2004-03-31 2007-03-28 独立行政法人情報通信研究機構 Teacher data creation device and program, and language analysis processing device and program
JP5424001B2 (en) * 2009-04-15 2014-02-26 日本電気株式会社 LEARNING DATA GENERATION DEVICE, REQUESTED EXTRACTION EXTRACTION SYSTEM, LEARNING DATA GENERATION METHOD, AND PROGRAM
JP5648913B2 (en) * 2011-01-20 2015-01-07 日本電信電話株式会社 Functional expression analysis device, feature weight learning device, functional expression analysis method, feature weight learning method, program

Also Published As

Publication number Publication date
JP2017058816A (en) 2017-03-23

Similar Documents

Publication Publication Date Title
TWI664540B (en) Search word error correction method and device, and weighted edit distance calculation method and device
JP6515624B2 (en) Method of identifying lecture video topics and non-transitory computer readable medium
US10740541B2 (en) Fact validation in document editors
JP6310150B2 (en) Intent understanding device, method and program
KR102025968B1 (en) Phrase-based dictionary extraction and translation quality evaluation
WO2019096068A1 (en) Voice recognition and error correction method and voice recognition and error correction system
US20220083577A1 (en) Information processing apparatus, method and non-transitory computer readable medium
JP6505421B2 (en) Information extraction support device, method and program
US20120183935A1 (en) Learning device, determination device, learning method, determination method, and computer program product
Ljubešić et al. Standardizing tweets with character-level machine translation
CN105630763B (en) For referring to the method and system of the disambiguation in detection
Glass et al. A naive salience-based method for speaker identification in fiction books
JP2015219582A (en) Interactive method, interaction device, interactive program, and recording medium
JP2015060458A (en) Machine translation system, method and program
JP6652355B2 (en) Information extraction device, method and program
JP5642037B2 (en) SEARCH DEVICE, SEARCH METHOD, AND PROGRAM
JP5911931B2 (en) Predicate term structure extraction device, method, program, and computer-readable recording medium
JP5117590B2 (en) Document processing apparatus and program
JP4793931B2 (en) Apparatus and method for extracting sets of interrelated specific expressions
Van Zaanen et al. The development of Dutch and Afrikaans language resources for compound boundary analysis
JP4941495B2 (en) User dictionary creation system, method, and program
JP5302784B2 (en) Machine translation method and system
JP2021086362A (en) Information processing device, information processing method, and program
US10083155B2 (en) Method for detecting original language of translated document
JP6640618B2 (en) Language processing apparatus, method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181211

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190702

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190807

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191224

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200123

R151 Written notification of patent or utility model registration

Ref document number: 6652355

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151