JP2014153862A - Information extraction apparatus, information extraction method, and information extraction program - Google Patents

Information extraction apparatus, information extraction method, and information extraction program Download PDF

Info

Publication number
JP2014153862A
JP2014153862A JP2013022245A JP2013022245A JP2014153862A JP 2014153862 A JP2014153862 A JP 2014153862A JP 2013022245 A JP2013022245 A JP 2013022245A JP 2013022245 A JP2013022245 A JP 2013022245A JP 2014153862 A JP2014153862 A JP 2014153862A
Authority
JP
Japan
Prior art keywords
combination
extraction
category
extraction model
cost
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013022245A
Other languages
Japanese (ja)
Other versions
JP5863193B2 (en
Inventor
Yoshihiko Kazuhara
良彦 数原
Jun Suzuki
潤 鈴木
Seiji Washisaki
誠司 鷲崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013022245A priority Critical patent/JP5863193B2/en
Publication of JP2014153862A publication Critical patent/JP2014153862A/en
Application granted granted Critical
Publication of JP5863193B2 publication Critical patent/JP5863193B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To accurately extract information on a related category from a document.SOLUTION: An event extraction model learning function 50 calculates a feature vector representing features of category combinations for combinations of candidates of categories stored in an extraction candidate DB 20, calculates a loss for a collect solution for a category combination which has the maximum score calculated by the feature vector and an extraction model, and updates the event extraction model when the loss is equal to or less than a predetermined value, to prepare a more proper event extraction model. An event extraction function 90 acquires a category combination having the maximum score calculated by the feature vector of the category combination and the event extraction model prepared by the event extraction model learning function 50, for combinations of candidates of categories stored in a prediction extraction candidate DB 80.

Description

本発明は、文書から情報を検索する技術に関する。   The present invention relates to a technique for retrieving information from a document.

ローカルなイベント開催情報について記述されているウェブページやブログ記事からイベント情報を自動的に抽出することにより、人手コストをかけずにイベント情報データベースを構築することが可能となり、イベント推薦サービスなどに活用することができる。   By automatically extracting event information from web pages and blog articles that describe local event information, it is possible to construct an event information database without human labor, and use it for event recommendation services, etc. can do.

テキストからイベント情報の抽出をするためには、例えば、非特許文献1〜3を用いて、イベント名、場所、日時などの各カテゴリに対する候補を抽出することができる。また、それぞれのカテゴリについて人手によってタグ付けされた正解データがあれば、教師あり機械学習の枠組みを用いてイベント名、場所、日時に対して自動的に判別を行う判別器を構築することができ、ウェブ文書などから自動的にイベント名、場所、日時を抽出することができる。   In order to extract the event information from the text, for example, using Non-Patent Documents 1 to 3, candidates for each category such as event name, location, date and time can be extracted. In addition, if there is correct data tagged manually for each category, it is possible to construct a discriminator that automatically discriminates against the event name, location, date and time using a supervised machine learning framework. Event name, location, date and time can be automatically extracted from web documents.

山田、他2名、「Support Vector Machineを用いた日本語固有表現抽出」、情報処理学会論文誌、情報処理学会、2002年1月、Vol. 43, No. 1、pp.44-53Yamada, et al., “Japanese Named Expression Extraction Using Support Vector Machine”, Transactions of Information Processing Society of Japan, Information Processing Society of Japan, January 2002, Vol. 43, No. 1, pp.44-53 平野、他2名、「地理的距離と有名度を用いた地名の曖昧性解消」、第70回情報処理学会全国大会、情報処理学会、2008年、pp.2-85 - 2-86Hirano and two others, “Resolving ambiguity of place names using geographical distance and famousness”, 70th Information Processing Society of Japan Conference, Information Processing Society of Japan, 2008, pp.2-85-2-86 廣嶋、他3名、「記述された日時の有効範囲を考慮した日時指定検索」、第3回Webとデータベースに関するフォーラム、2010年Takashima and three others, “Specified date and time search considering the valid range of written date and time”, 3rd Forum on Web and Database, 2010 平、他1名、「構造学習を用いた述語項構造解析」、第14回言語処理学会年次大会発表論文集、言語処理学会、2008年、pp.556-559Hira, et al., “Predicate term structure analysis using structural learning”, Proc. Of the 14th Annual Conference of the Language Processing Society of Japan, 2008, pp.556-559 Crammer K., et al., “Online Passive-Aggressive Algorithms”, Journal of Machine Learning, 2006, Vol. 7, pp. 551-585Crammer K., et al., “Online Passive-Aggressive Algorithms”, Journal of Machine Learning, 2006, Vol. 7, pp. 551-585

しかしながら、個別のカテゴリに対する判定器を構築する方法では、各カテゴリの判定器の出力結果を同時に考慮しないため、たとえば各カテゴリの表現が文書内において近くに出現しやすいといった特徴を扱うことができず、イベント抽出精度が低下するおそれがあった。   However, the method for constructing the discriminator for each category does not take into account the output results of the discriminators of each category at the same time, so it cannot handle features such as the expression of each category easily appearing in the document. The event extraction accuracy may be reduced.

また、アプリケーションによっては、他の情報が間違っていてもイベント情報の日時を必ず正確に取得したいという要求があり、そのような状況において、日時誤りが、場所誤りに比べて重要になる場合がある。従来手法では誤りの重要度を考慮することができず、イベント抽出精度が低下するおそれがあった。   In addition, some applications require that the date and time of event information be obtained accurately even if other information is incorrect. In such a situation, date and time errors may be more important than location errors. . In the conventional method, the importance of the error cannot be taken into account, and there is a possibility that the event extraction accuracy may be lowered.

本発明は、上記に鑑みてなされたものであり、文書中から関連性のあるカテゴリの情報を精度良く抽出することを目的とする。   The present invention has been made in view of the above, and an object of the present invention is to accurately extract information on relevant categories from a document.

第1の本発明に係る情報抽出方法は、関連性のあるカテゴリそれぞれの候補を文書情報から抽出して格納した抽出候補記憶手段に格納されたカテゴリそれぞれの候補の全ての可能な組み合わせ対して、当該組み合わせの特徴を表す特徴ベクトルを計算するステップと、抽出モデル記憶手段に格納された抽出モデルと前記特徴ベクトルを用いて算出されるスコアが最大となる組み合わせを取得するステップと、前記カテゴリそれぞれの正解を格納した正解記憶手段から前記正解の組み合わせを読み出してスコアを計算し、前記正解の組み合わせのスコアに対する前記取得するステップで取得した組み合わせのスコアの損失が所定の範囲内の場合は、前記抽出モデル記憶手段に格納された抽出モデルを更新するステップと、を有し、カテゴリそれぞれの候補を予測対象文書情報から抽出して格納した予測対象抽出候補記憶手段に格納された前記カテゴリそれぞれの候補の全ての可能な組み合わせ対して、当該組み合わせの特徴を表す特徴ベクトルを計算し、前記抽出モデル記憶手段に格納された抽出モデルと前記特徴ベクトルを用いて算出されるスコアが最大となる組み合わせを取得するステップを有することを特徴とする。   The information extraction method according to the first aspect of the present invention is directed to all possible combinations of each category candidate stored in the extraction candidate storage means that extracts and stores candidates for each related category from the document information. Calculating a feature vector representing the characteristics of the combination; obtaining an extraction model stored in the extraction model storage means; and a combination having a maximum score calculated using the feature vector; and The combination of correct answers is read from the correct answer storage means storing the correct answer, the score is calculated, and if the loss of the score of the combination acquired in the acquiring step with respect to the score of the correct answer combination is within a predetermined range, the extraction Updating the extracted model stored in the model storage means, and having a category that For all possible combinations of the candidates for each category stored in the prediction target extraction candidate storage means that extracts and stores these candidates from the prediction target document information, a feature vector representing the characteristics of the combination is calculated. The method further comprises a step of obtaining a combination having a maximum score calculated using the extracted model stored in the extracted model storage unit and the feature vector.

上記情報抽出方法において、前記抽出モデルを更新するステップは、カテゴリ間あるいはカテゴリ内における誤りコストを格納したコスト記憶手段から前記誤りコストを読み出し、当該誤りコストを用いて前記取得するステップで取得した組み合わせに対するコストを求め、求めたコストを前記所定の範囲とすることを特徴とする。   In the information extraction method, the step of updating the extraction model includes reading the error cost from a cost storage unit storing error costs between categories or within categories, and acquiring the combination using the error cost. The cost is calculated, and the calculated cost is set to the predetermined range.

第2の本発明に係る情報抽出装置は、関連性のあるカテゴリの情報を抽出するための抽出モデルを格納する抽出モデル記憶手段と、関連性のあるカテゴリそれぞれの候補を文書情報から抽出して格納した抽出候補記憶手段と、カテゴリそれぞれの正解を格納した正解記憶手段と、前記抽出候補記憶手段に格納されたカテゴリそれぞれの候補の全ての可能な組み合わせ対して、当該組み合わせの特徴を表す特徴ベクトルを計算する特徴ベクトル計算手段と、前記抽出モデル記憶手段に格納された抽出モデルと前記特徴ベクトルを用いて算出されるスコアが最大となる組み合わせを取得する組み合わせ取得手段と、前記正解記憶手段から前記正解の組み合わせを読み出してスコアを計算し、前記正解の組み合わせのスコアに対する前記組み合わせ取得手段が取得した組み合わせのスコアの損失が所定の範囲内の場合は、前記抽出モデル記憶手段に格納された抽出モデルを更新する抽出モデル更新手段と、を有し、カテゴリそれぞれの候補を予測対象文書情報から抽出して格納した予測対象抽出候補記憶手段と、前記予測対象抽出候補記憶手段に格納された前記カテゴリそれぞれの候補の全ての可能な組み合わせ対して、当該組み合わせの特徴を表す特徴ベクトルを計算し、前記抽出モデル記憶手段に格納された抽出モデルと前記特徴ベクトルを用いて算出されるスコアが最大となる組み合わせを取得する情報抽出手段と、を有することを特徴とする。   An information extraction apparatus according to a second aspect of the present invention is an extraction model storage means for storing an extraction model for extracting information of related categories, and extracts candidates for each related category from document information. A feature vector representing the characteristics of the combination of the stored extraction candidate storage means, the correct storage means for storing the correct answer of each category, and all possible combinations of the respective category candidates stored in the extraction candidate storage means A feature vector calculation means for calculating the combination, an extraction model stored in the extraction model storage means and a combination acquisition means for obtaining a combination with a maximum score calculated using the feature vector, and the correct answer storage means from the The combination of the correct combination is read out, the score is calculated, and the combination of the correct combination is scored An extraction model update unit that updates the extraction model stored in the extraction model storage unit when the loss of the combination score acquired by the acquisition unit is within a predetermined range; A prediction target extraction candidate storage unit extracted from the document information and stored, and for all possible combinations of each category candidate stored in the prediction target extraction candidate storage unit, a feature vector representing the characteristics of the combination is obtained. And an information extraction means for obtaining a combination that calculates and obtains a maximum score calculated using the extraction model and the feature vector stored in the extraction model storage means.

上記情報抽出装置において、カテゴリ間あるいはカテゴリ内における誤りコストを格納したコスト記憶手段を更に備え、前記抽出モデル更新手段は、前記コスト記憶手段から前記誤りコストを読み出し、当該誤りコストを用いて前記組み合わせ取得手段が取得した組み合わせに対するコストを求め、求めたコストを前記所定の範囲とすることを特徴とする。   The information extraction apparatus further includes cost storage means for storing error costs between categories or within categories, wherein the extraction model update means reads the error costs from the cost storage means and uses the error costs to perform the combination. The cost for the combination acquired by the acquisition means is obtained, and the obtained cost is set in the predetermined range.

第3の本発明に係る情報抽出プログラムは、上記情報抽出方法の各ステップをコンピュータに実行させることを特徴とする。   An information extraction program according to a third aspect of the present invention causes a computer to execute each step of the information extraction method.

本発明によれば、文書中から関連性のあるカテゴリの情報を精度良く抽出することができる。   According to the present invention, related category information can be accurately extracted from a document.

本実施の形態におけるイベント情報抽出装置の構成を示す機能ブロック図である。It is a functional block diagram which shows the structure of the event information extraction apparatus in this Embodiment. 文書データベースに格納されたデータの例を示す図である。It is a figure which shows the example of the data stored in the document database. 抽出候補データベースに格納されたデータの例を示す図である。It is a figure which shows the example of the data stored in the extraction candidate database. 正解データベースに格納されたデータの例を示す図である。It is a figure which shows the example of the data stored in the correct database. コストデータベースに格納されたデータの例を示す図である。It is a figure which shows the example of the data stored in the cost database. イベント抽出モデル学習機能の処理の流れを示すフローチャートである。It is a flowchart which shows the flow of a process of an event extraction model learning function. イベント抽出モデルデータベースに格納されたイベント抽出モデルの例を示す図である。It is a figure which shows the example of the event extraction model stored in the event extraction model database. 予測対象文書データベースに格納されたデータの例を示す図である。It is a figure which shows the example of the data stored in the prediction object document database. 予測対象抽出候補データベースに格納されたデータの例を示す図である。It is a figure which shows the example of the data stored in the prediction object extraction candidate database. イベント抽出機能の処理の流れを示すフローチャートである。It is a flowchart which shows the flow of a process of an event extraction function. イベントデータベースに格納されたイベント情報の例を示す図である。It is a figure which shows the example of the event information stored in the event database. 従来手法と本実施の形態におけるイベント情報抽出装置の各カテゴリに対する予測の適合率を求めた実験結果を示す。The experimental result which calculated | required the precision of the prediction with respect to each category of the conventional method and the event information extraction apparatus in this Embodiment is shown.

以下、本発明の実施の形態について図面を用いて説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

図1は、本実施の形態におけるイベント情報抽出装置の構成を示す機能ブロック図である。図1に示すイベント情報抽出装置は、文書DB10、抽出候補DB20(抽出候補記憶手段に対応)、正解DB30(正解記憶手段に対応)、コストDB40(コスト記憶手段に対応)、イベント抽出モデル学習機能50(特徴ベクトル計算手段、組み合わせ取得手段及び抽出モデル更新手段に対応)、イベント抽出モデルDB60(抽出モデル記憶手段に対応)、予測対象文書DB70、予測対象抽出候補DB80(予測対象抽出候補記憶手段に対応)、イベント抽出機能90(情報抽出手段に対応)、およびイベントDB100を備える。イベント情報抽出装置が備える各部は、演算処理装置、記憶装置等を備えたコンピュータにより構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムはイベント情報抽出装置が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。   FIG. 1 is a functional block diagram showing the configuration of the event information extraction apparatus in the present embodiment. 1 includes a document DB 10, an extraction candidate DB 20 (corresponding to extraction candidate storage means), a correct answer DB 30 (corresponding to correct answer storage means), a cost DB 40 (corresponding to cost storage means), and an event extraction model learning function. 50 (corresponding to feature vector calculation means, combination acquisition means and extraction model update means), event extraction model DB 60 (corresponding to extraction model storage means), prediction target document DB 70, prediction target extraction candidate DB 80 (prediction target extraction candidate storage means) Correspondence), an event extraction function 90 (corresponding to information extraction means), and an event DB 100. Each unit included in the event information extraction device may be configured by a computer including an arithmetic processing device, a storage device, and the like, and the processing of each unit may be executed by a program. This program is stored in a storage device included in the event information extraction device, and can be recorded on a recording medium such as a magnetic disk, an optical disk, or a semiconductor memory, or provided through a network.

まず、イベント抽出モデル学習機能50について説明する。イベント抽出モデル学習機能50は、文書DB10、抽出候補DB20、正解DB30、コストDB40に格納された情報と繰り返し回数Tを入力として、イベント抽出モデルを出力する。   First, the event extraction model learning function 50 will be described. The event extraction model learning function 50 outputs an event extraction model with the information stored in the document DB 10, the extraction candidate DB 20, the correct answer DB 30, and the cost DB 40 and the number of repetitions T as inputs.

文書DB10は、イベント情報の抽出対象となる本文情報(テキストデータ)に文書IDを付与して格納する。図2に、文書DB10に格納されたデータの例を示す。   The document DB 10 assigns and stores a document ID to text information (text data) from which event information is extracted. FIG. 2 shows an example of data stored in the document DB 10.

抽出候補DB20は、文書DB10が格納する本文情報それぞれから抽出したイベント名候補、場所候補、日時候補を文書ID毎に格納する。図3に、抽出候補DB20に格納されたデータの例を示す。図3に示す例では、文書IDが1の本文情報から抽出されたイベント名候補として、「イベント」「小樽ロングクリスマス2012Final」の2つが格納されている。図3には示していないが、イベント名候補、場所候補、日時候補については、本文情報中の出現位置情報を付与している。イベント名候補の抽出には非特許文献1を、場所候補の抽出には非特許文献2を、日時候補の抽出には非特許文献3を用いることで、文書DB10に格納された本文情報から抽出候補DB20に格納するデータを生成可能である。イベント名、場所、日時を抽出することができれば、場所や日時に基づいたイベント推薦が可能となるため、本実施の形態では、これらの3つの情報を1つのイベント情報の単位とする。イベント名、場所、日時をイベント情報のカテゴリと呼ぶ。本実施の形態では、イベント情報のカテゴリとしてイベント名、場所、日時を用いるが、それ以外の情報(例えば料金,主催団体など)についても本実施形態と同じ枠組みで実現可能である。   The extraction candidate DB 20 stores event name candidates, location candidates, and date / time candidates extracted from each of the text information stored in the document DB 10 for each document ID. FIG. 3 shows an example of data stored in the extraction candidate DB 20. In the example illustrated in FIG. 3, “event” and “Otaru Long Christmas 2012 Final” are stored as event name candidates extracted from the body information with the document ID of 1. Although not shown in FIG. 3, appearance position information in the text information is given to event name candidates, place candidates, and date / time candidates. Extract non-patent document 1 for extracting event name candidates, non-patent document 2 for extracting location candidates, and non-patent document 3 for extracting date / time candidates. Data to be stored in the candidate DB 20 can be generated. If the event name, location, and date / time can be extracted, event recommendation based on the location / date / time is possible. In this embodiment, these three pieces of information are used as a unit of event information. The event name, location, date and time are called event information categories. In the present embodiment, the event name, location, and date / time are used as the event information category, but other information (for example, fee, host organization, etc.) can be realized in the same framework as in the present embodiment.

正解DB30は、文書DB10が格納する本文情報それぞれについて、各カテゴリの正解、つまり正解イベント名、正解場所、正解日時を格納する。図4に、正解DB30に格納されたデータの例を示す。これらの正解は、人手によってあらかじめ作成されているものとする。なお、抽出候補DB20と同様に、本文情報中の出現位置情報を付与している。   The correct answer DB 30 stores the correct answer of each category, that is, the correct event name, the correct answer place, and the correct date and time for each of the text information stored in the document DB 10. FIG. 4 shows an example of data stored in the correct answer DB 30. These correct answers are prepared in advance by hand. In addition, like the extraction candidate DB 20, appearance position information in the text information is given.

コストDB40は、各カテゴリに対する誤りコストを格納する。図5に、コストDB40に格納されたデータの例を示す。図5中の event はイベント名の誤りコスト、geo は場所の誤りコスト、time は日時の誤りコストを表す。値が大きいほどコストが高い、つまり間違えて欲しくないことを示す。これらのコストは、人手によってあらかじめ作成されているものとする。   The cost DB 40 stores an error cost for each category. FIG. 5 shows an example of data stored in the cost DB 40. In FIG. 5, event represents an event name error cost, geo represents a location error cost, and time represents a date and time error cost. The higher the value, the higher the cost. These costs are preliminarily created manually.

続いて、イベント抽出モデル学習機能50の処理の流れを説明する。   Next, the process flow of the event extraction model learning function 50 will be described.

図6は、イベント抽出モデル学習機能50の処理の流れを示すフローチャートである。   FIG. 6 is a flowchart showing a process flow of the event extraction model learning function 50.

最初に、重みベクトルwをw=(0,0,0,・・・,0)と初期化し、繰り返しカウンタtをt←1と初期化する(ステップS11)。重みベクトルwは、イベント抽出モデルDB60に格納されたイベント抽出モデルである。重みベクトルwの次元数は後述する特徴ベクトル数と同じM次元とする。 First, the weight vector w is initialized as w = (0, 0, 0,..., 0) T, and the repetition counter t is initialized as t ← 1 (step S11). The weight vector w is an event extraction model stored in the event extraction model DB 60. The number of dimensions of the weight vector w is the same as the number of feature vectors described later.

続いて、正解DB30からランダムに1レコードを選択する(ステップS12)。ここで選択したレコードの文書IDをdとする。   Subsequently, one record is selected at random from the correct answer DB 30 (step S12). The document ID of the record selected here is d.

続いて、抽出候補DB20から文書IDがdのレコードを選択して、全てのカテゴリにおける可能な候補の組み合わせの集合(以下、「カテゴリ組み合わせ集合」と称する)を作成し、カテゴリ組み合わせ集合に含まれる全ての組み合わせについて特徴ベクトルを作成する(ステップS13)。図3に示す抽出候補DB20の文書IDが2のレコードから作成するカテゴリ組み合わせ集合は以下のようになる。   Subsequently, a record with the document ID d is selected from the extraction candidate DB 20, and a set of possible candidate combinations in all categories (hereinafter referred to as "category combination set") is created and included in the category combination set. Feature vectors are created for all combinations (step S13). The category combination set created from the record whose document ID is 2 in the extraction candidate DB 20 shown in FIG. 3 is as follows.

第20回横須賀祭り − 神奈川県横須賀市 − 2012年10月20日
第20回横須賀祭り − 神奈川県横須賀市 − 2012年12月20日
・・・
お祭り − 東京都 − 2013年1月1日
The 20th Yokosuka Festival-Yokosuka City, Kanagawa Prefecture-October 20, 2012 The 20th Yokosuka Festival-Yokosuka City, Kanagawa Prefecture-December 20, 2012 ・ ・ ・
Festival-Tokyo-January 1, 2013

このように、本実施の形態におけるカテゴリ組み合わせ集合は、イベント名候補、場所候補、日時候補について全ての可能な候補の組み合わせの集合となる。上記の図3の文書IDが2の例では、イベント名候補が2つ、場所候補が2つ、日時候補が3つであるので、2・2・3=12通りの組み合わせが存在する。ここで正解DB30の選択されたレコードに格納されたイベント名、場所、日時を持つ組み合わせを正解として扱い、それ以外の組み合わせについては誤り組み合わせとし、どのカテゴリが誤っているかという情報を同時に保持しているものとする。例えば、場所と日時が正解と異なる場合、場所、日時誤りと判定する。このように、誤り組み合わせは1つ以上の誤ったカテゴリを持つ。   Thus, the category combination set in the present embodiment is a set of all possible candidate combinations for event name candidates, place candidates, and date / time candidates. In the example of document ID 2 in FIG. 3, there are two event name candidates, two place candidates, and three date / time candidates, so there are 2 · 2 · 3 = 12 combinations. Here, the combination having the event name, location, and date / time stored in the selected record of the correct answer DB 30 is treated as a correct answer, and other combinations are regarded as incorrect combinations, and information on which category is incorrect is held simultaneously. It shall be. For example, if the location and date / time are different from the correct answer, it is determined that the location / date / time is incorrect. Thus, an error combination has one or more incorrect categories.

ステップS13では、さらに、作成したカテゴリ組み合わせ集合と文書DB10から取得した本文情報をもとに、各カテゴリ組み合わせの特徴を表す特徴ベクトルΦ(y,x)を作成する。ここで、xは当該文書IDに対応する本文情報のベクトル表現であり、yはカテゴリ組み合わせ集合の要素(カテゴリ組み合わせ)である。Φ(y,x)はM次元ベクトルであり、yとxを入力とするM個のイベント情報らしさを捉えるための特徴関数φ(y,x)の出力で構成される。特徴関数φ(y,x)の例としては、例えば「yの3つの候補が文書内の近い位置に出現する」という特徴を捉えるため、3つの表現が50文字以内に出現する場合に1、そうでない場合に0を出力する特徴関数が挙げられる。また、別の例としては、イベント名に含まれる文字列が本文内の他の場所で出現もする場合に1、そうでない場合に0を出力する特徴関数が考えられる。その他の文字列に基づく基本的な特徴関数としては、例えば非特許文献4の方法を用いることができる。   In step S13, a feature vector Φ (y, x) representing the characteristics of each category combination is further created based on the created category combination set and the text information acquired from the document DB 10. Here, x is a vector representation of text information corresponding to the document ID, and y is an element (category combination) of the category combination set. Φ (y, x) is an M-dimensional vector, and is composed of an output of a feature function φ (y, x) for capturing the likelihood of M pieces of event information having y and x as inputs. As an example of the feature function φ (y, x), for example, in order to capture the feature that “three candidates of y appear in close positions in the document”, 1 when three expressions appear within 50 characters, Otherwise, a feature function that outputs 0 is given. Another example is a feature function that outputs 1 when a character string included in an event name also appears elsewhere in the text, and outputs 0 otherwise. As a basic feature function based on other character strings, for example, the method of Non-Patent Document 4 can be used.

続いて、コストDB40に格納された誤りコストを用い、各カテゴリ組み合わせに対してコストを計算する(ステップS14)。各カテゴリ組み合わせに対するコストは、あらかじめ設定されたコスト関数ρを用いて計算する。カテゴリ組み合わせ集合のうち、カテゴリ組み合わせの正解ベクトルをy、場所のみ誤っているカテゴリ組み合わせベクトルをyerrorgeoとすると、場所のみ誤っているカテゴリ組み合わせのコストは、ρ(y,yerrorgeo)で計算する。また、日時のみ誤っているカテゴリ組み合わせベクトルをyerrortimeとすると、日時のみ誤っているカテゴリ組み合わせのコストは、ρ(y,yerrortime)で計算する。 Subsequently, using the error cost stored in the cost DB 40, the cost is calculated for each category combination (step S14). The cost for each category combination is calculated using a preset cost function ρ. In the category combination set, if the correct vector of the category combination is y and the category combination vector in which only the location is incorrect is y erroreo , the cost of the category combination in which only the location is incorrect is calculated by ρ (y, y erroreo ). If the category combination vector in which only the date and time is incorrect is y errortime , the cost of the category combination in which only the date and time is incorrect is calculated by ρ (y, y errortime ).

誤り組み合わせに対し、誤っているカテゴリのコストをコストDB40から読み出す。誤っているカテゴリがひとつの場合は、該当するカテゴリのコストを用いる。誤っているカテゴリが複数ある場合には、複数の該当するカテゴリーのコストを足し合わせて用いる。   For an error combination, the cost of an incorrect category is read from the cost DB 40. If there is one wrong category, use the cost of that category. When there are a plurality of erroneous categories, the costs of the corresponding categories are added together.

例えば、場所誤りに対する誤りコストが日時誤りに対する誤りコストより大きい場合は、次式(1)となる。

Figure 2014153862
For example, when the error cost for the location error is larger than the error cost for the date / time error, the following equation (1) is obtained.
Figure 2014153862

複数のカテゴリが誤る場合、例えばイベント名と場所が誤っているカテゴリ組み合わせのベクトルyerrorevent_and_geoは、次式(2)のようにコストを加算して求めることができる。

Figure 2014153862
When a plurality of categories are wrong, for example, the vector y error_and_geo of the category combination in which the event name and the place are wrong can be obtained by adding the cost as shown in the following equation (2).
Figure 2014153862

なお、カテゴリに対するコスト関数だけではなく、同一カテゴリ内の候補に対しても不均等なコストを同様に設定することができる。例えば、あるイベント情報における神奈川県横須賀市という場所カテゴリの正解に対して、神奈川県横浜市を選択する誤りは、北海道帯広市を選択する誤りに比べて、より正解に近い推測を行なっているため、損失は小さいと考えることができる。そこで、北海道帯広市を選択する誤りに対するコストを神奈川県横浜市を選択する誤りに対するコストより大きく設定することにより、より正解に近い推測を行うモデルの生成が可能となる。他にも、イベント名においては正解表現に対する文字列の編集距離、場所においては地名の地理的距離、日時においては正解日付からのずれ日数などを用いることができる。また、小さなずれも強調するようなコストを設定したい場合、例えば、0<r<1の値を用いたf(x)=|x|などの関数を利用するとよい。 Note that unequal costs can be set not only for the cost function for a category but also for candidates within the same category. For example, for the correct answer for the location category Yokosuka City, Kanagawa Prefecture, in the event information, the error in selecting Yokohama City, Kanagawa Prefecture makes a closer guess than the error in selecting Obihiro City, Hokkaido. The loss can be considered small. Therefore, by setting the cost for the error to select Obihiro City, Hokkaido larger than the cost for the error to select Yokohama City, Kanagawa Prefecture, it is possible to generate a model that makes a guess closer to the correct answer. In addition, in the event name, the edit distance of the character string with respect to the correct answer expression, the geographical distance of the place name in the place, the number of days shifted from the correct date in the date and time, and the like can be used. When it is desired to set a cost that emphasizes even a small deviation, for example, a function such as f (x) = | x | r using a value of 0 <r <1 may be used.

続いて、現在の重みベクトルwで最大スコアとなるカテゴリ組み合わせを求める(ステップS15)。最大スコアとなるカテゴリ組み合わせは、次式(3)で計算する。

Figure 2014153862
Subsequently, the category combination that provides the maximum score with the current weight vector w is obtained (step S15). The category combination that gives the maximum score is calculated by the following equation (3).
Figure 2014153862

ここで、Yはt番目のイテレーションにおいて選択された文書におけるカテゴリ組み合わせ集合、yは正解のカテゴリ組み合わせ、xは該当文書の本文情報である。 Here, Y t is the category combination sets in the document selected in the t-th iteration, the y t category combinations of answer, is x t is the body information of the document.

続いて、ステップS15で求めた最大スコアのカテゴリ組み合わせの損失を計算し、損失が0より大きい場合は重みベクトルwを更新する(ステップS16)。t番目のイテレーションにおける損失lは次式(4)で計算する。

Figure 2014153862
Subsequently, the loss of the category combination with the maximum score obtained in step S15 is calculated. If the loss is greater than 0, the weight vector w is updated (step S16). The loss l t in the t-th iteration is calculated by the following equation (4).
Figure 2014153862

ここで、右辺第3項は、ステップS14で計算したコストを用いる。損失l>0の場合、損失lに応じて重みベクトルwを更新する。重みベクトルの更新には、例えば非特許文献5の方法を用いることができる。 Here, the cost calculated in step S14 is used as the third term on the right side. If the loss l t > 0, the weight vector w is updated according to the loss l t . For example, the method of Non-Patent Document 5 can be used to update the weight vector.

そして、繰り返しカウンタtを増分し(ステップS17)、あらかじめ定めた繰り返し回数T以下の場合(ステップS18のYes)、ステップS12に戻り、繰り返しカウンタtが繰り返し回数Tを超えた場合(ステップS18のNo)、重みベクトルwをイベント抽出モデルDB60に出力する(ステップS19)。   Then, the repeat counter t is incremented (step S17), and if it is less than or equal to the predetermined repeat count T (Yes in step S18), the process returns to step S12, and if the repeat counter t exceeds the repeat count T (No in step S18). ), And outputs the weight vector w to the event extraction model DB 60 (step S19).

次に、イベント抽出機能90について説明する。イベント抽出機能90は、イベント抽出モデルDB60に格納されたイベント抽出モデルを用いて、予測対象文書DB70、予測対象抽出候補DB80に格納された情報からイベント情報を抽出する。   Next, the event extraction function 90 will be described. The event extraction function 90 extracts event information from information stored in the prediction target document DB 70 and the prediction target extraction candidate DB 80 using the event extraction model stored in the event extraction model DB 60.

イベント抽出モデルDB60は、イベント抽出モデル学習機能50が求めたイベント抽出モデルを格納する。イベント抽出モデルは、M次元の特徴に対する重みベクトルw=(w,w,・・・,wで構成される。図7に、イベント抽出モデルDB60に格納されたイベント抽出モデルの例を示す。 The event extraction model DB 60 stores the event extraction model obtained by the event extraction model learning function 50. The event extraction model is composed of a weight vector w = (w 1 , w 2 ,..., W M ) T for M-dimensional features. FIG. 7 shows an example of an event extraction model stored in the event extraction model DB 60.

予測対象文書DB70は、文書DB10と同様に、イベント情報の抽出対象となる本文情報に文書IDを付与して格納する。図8に、予測対象文書DB70に格納されたデータの例を示す。   Similar to the document DB 10, the prediction target document DB 70 assigns and stores a document ID to the text information from which event information is extracted. FIG. 8 shows an example of data stored in the prediction target document DB 70.

予測対象抽出候補DB80は、抽出候補DB20と同様に、予測対象文書DB70が格納する本文情報それぞれから抽出したイベント名候補、場所候補、日時候補を格納する。図9に、予測対象抽出候補DB80に格納されたデータの例を示す。   Like the extraction candidate DB 20, the prediction target extraction candidate DB 80 stores event name candidates, place candidates, and date / time candidates extracted from the text information stored in the prediction target document DB 70. FIG. 9 shows an example of data stored in the prediction target extraction candidate DB 80.

続いて、イベント抽出機能90の処理の流れを説明する。   Next, the process flow of the event extraction function 90 will be described.

図10は、イベント抽出機能90の処理の流れを示すフローチャートである。   FIG. 10 is a flowchart showing a process flow of the event extraction function 90.

まず、予測対象文書DB70から未処理のレコードを選択する(ステップS21)。ここで選択したレコードの文書IDをd’とする。   First, an unprocessed record is selected from the prediction target document DB 70 (step S21). It is assumed that the document ID of the record selected here is d ′.

予測対象抽出候補DB80から文書IDがd’のレコードを選択してカテゴリ組み合わせ集合を作成し、カテゴリ組み合わせ集合に含まれる全てのカテゴリ組み合わせについて特徴ベクトルを作成する(ステップS22)。イベント抽出モデル学習機能50によるステップS13と同じ処理によって特徴ベクトルΦ(y,x)を作成する。   A record having a document ID of d 'is selected from the prediction target extraction candidate DB 80 to create a category combination set, and feature vectors are created for all category combinations included in the category combination set (step S22). A feature vector Φ (y, x) is created by the same processing as step S13 by the event extraction model learning function 50.

続いて、イベント抽出モデルDB60に格納されたイベント抽出モデルを用いて最大スコアを与えるカテゴリ組み合わせを取得する(ステップS23)。具体的には、次式(5)に示すように、イベント抽出モデルDB60に格納された重さベクトルwとステップS22で作成した特徴ベクトルΦ(y,x)との内積を計算して、最大スコアを与えるカテゴリ組み合わせを取得する。

Figure 2014153862
Subsequently, the category combination that gives the maximum score is acquired using the event extraction model stored in the event extraction model DB 60 (step S23). Specifically, as shown in the following equation (5), the inner product of the weight vector w stored in the event extraction model DB 60 and the feature vector Φ (y, x) created in step S22 is calculated, and the maximum Get the category combination that gives the score.
Figure 2014153862

ここで、Ytestは入力文書におけるカテゴリ組み合わせ集合、xは入力文書の本文情報である。 Here, Y test is a set of category combinations in the input document, and x is text information of the input document.

ステップS23で取得したカテゴリ組み合わせの各カテゴリをイベントDB100に出力する(ステップS24)。   Each category of the category combination acquired in step S23 is output to the event DB 100 (step S24).

予測対象文書DB70に未処理のレコードがある場合には(ステップS25のYes)、ステップS21に戻り、次のレコードを取得し、未処理のレコードがない場合は(ステップS25のNo)、処理を終了する。   If there is an unprocessed record in the prediction target document DB 70 (Yes in step S25), the process returns to step S21 to obtain the next record. If there is no unprocessed record (No in step S25), the process is performed. finish.

図12に、イベントDB100に格納されたイベント情報の例を示す。イベントDB100には、文書ID毎に抽出されたイベント情報が格納される。   FIG. 12 shows an example of event information stored in the event DB 100. The event DB 100 stores event information extracted for each document ID.

次に、本実施の形態におけるイベント情報抽出装置の実験結果について説明する。   Next, experimental results of the event information extraction device in the present embodiment will be described.

地域イベント情報を含む日本語ブログ記事309件を文書DB10に格納し、非特許文献1〜3の手法を用いて固有表現を抽出して抽出候補DB20を作成、イベント名、場所、日時を抽出して正解DB30を構築した。   309 Japanese blog articles including local event information are stored in the document DB 10, and a unique expression is extracted by using the methods of Non-Patent Documents 1 to 3, and an extraction candidate DB 20 is created, and an event name, a place, and a date are extracted. The correct DB 30 was constructed.

比較対象の方法として、抽出した固有表現タイプを用いてルールベースで判定するベースライン手法を用いた。   As a method for comparison, a baseline method was used in which a rule-based decision was made using the extracted specific expression type.

本実施の形態のイベント情報抽出装置を用いた方法では、データを5ブロックに分割し、4ブロックを訓練データ、1ブロックをテストデータにして、組み合わせを変えて5回試行した。   In the method using the event information extraction device of the present embodiment, the data was divided into 5 blocks, 4 blocks were used as training data, 1 block was used as test data, and 5 combinations were tried.

図12に、各カテゴリに対する予測の適合率(正解件数/予測件数)を求めた実験結果を示す。同図に示すように、いずれの項目においても、本実施の形態のイベント情報抽出装置を用いた方法がベースライン手法よりも優れていた。   FIG. 12 shows the experimental results for obtaining the prediction precision (number of correct answers / number of predictions) for each category. As shown in the figure, in any item, the method using the event information extraction apparatus of this embodiment is superior to the baseline method.

以上説明したように、本実施の形態によれば、イベント抽出モデル学習機能50が、抽出候補DB20に格納された各カテゴリの候補の組み合わせについて、各カテゴリ組み合わせの特徴を表す特徴ベクトルを計算し、特徴ベクトルとイベント抽出モデルで計算されるスコアが最大となるカテゴリ組み合わせについて、正解に対する損失を計算し、損失が所定の値以内の場合にイベント抽出モデルを更新することでより的確なイベント抽出モデルを作成するとともに、イベント抽出機能90が予測対象抽出候補DB80に格納された各カテゴリの候補の組み合わせについて、カテゴリ組み合わせの特徴ベクトルとイベント抽出モデル学習機能50の作成したイベント抽出モデルで計算されるスコアが最大となるカテゴリ組み合わせを取得することにより、イベント名、場所、日時といったカテゴリ同士の関係を考慮した高精度なイベント情報の抽出が可能となる。   As described above, according to the present embodiment, the event extraction model learning function 50 calculates a feature vector representing the characteristics of each category combination for each category candidate combination stored in the extraction candidate DB 20, For the category combination that maximizes the score calculated by the feature vector and the event extraction model, calculate the loss for the correct answer, and update the event extraction model when the loss is within the specified value to create a more accurate event extraction model. As for the combination of candidates for each category stored in the prediction target extraction candidate DB 80 by the event extraction function 90, the feature vector of the category combination and the score calculated by the event extraction model created by the event extraction model learning function 50 are calculated. Get the largest category combination And by, the event name, location, extraction of high-precision event information in consideration of the relationship between categories, such as date and time can be achieved.

本実施の形態によれば、カテゴリ間あるいはカテゴリ内における誤りコストを損失の評価に加味することによって、カテゴリ間あるいはカテゴリ内における誤りの重要度を反映したイベント抽出モデルの学習が可能となる。例えば、日時を犠牲にしても場所誤りを減少させるイベント抽出モデルの生成が可能となる。これにより、ユーザ満足度を著しく下げる結果を出力するイベント抽出モデルの生成を防ぐことができる。   According to the present embodiment, it is possible to learn an event extraction model that reflects the importance of errors between categories or within categories by adding error costs between categories or within categories to loss evaluation. For example, it is possible to generate an event extraction model that reduces location errors even at the expense of date and time. Thereby, it is possible to prevent generation of an event extraction model that outputs a result that significantly reduces user satisfaction.

10…文書DB
20…抽出候補DB
30…正解DB
40…コストDB
50…イベント抽出モデル学習機能
60…イベント抽出モデルDB
70…予測対象文書DB
80…予測対象抽出候補DB
90…イベント抽出機能
100…イベントDB
10 ... Document DB
20 ... Extraction candidate DB
30 ... Correct DB
40 ... Cost DB
50 ... Event extraction model learning function 60 ... Event extraction model DB
70 ... prediction target document DB
80 ... prediction target extraction candidate DB
90 ... Event extraction function 100 ... Event DB

Claims (5)

関連性のあるカテゴリそれぞれの候補を文書情報から抽出して格納した抽出候補記憶手段に格納されたカテゴリそれぞれの候補の全ての可能な組み合わせ対して、当該組み合わせの特徴を表す特徴ベクトルを計算するステップと、
抽出モデル記憶手段に格納された抽出モデルと前記特徴ベクトルを用いて算出されるスコアが最大となる組み合わせを取得するステップと、
前記カテゴリそれぞれの正解を格納した正解記憶手段から前記正解の組み合わせを読み出してスコアを計算し、前記正解の組み合わせのスコアに対する前記取得するステップで取得した組み合わせのスコアの損失が所定の範囲内の場合は、前記抽出モデル記憶手段に格納された抽出モデルを更新するステップと、を有し、
カテゴリそれぞれの候補を予測対象文書情報から抽出して格納した予測対象抽出候補記憶手段に格納された前記カテゴリそれぞれの候補の全ての可能な組み合わせ対して、当該組み合わせの特徴を表す特徴ベクトルを計算し、前記抽出モデル記憶手段に格納された抽出モデルと前記特徴ベクトルを用いて算出されるスコアが最大となる組み合わせを取得するステップを有すること
を特徴とする情報抽出方法。
A step of calculating a feature vector representing a feature of the combination for all possible combinations of each category candidate stored in the extraction candidate storage means that extracts and stores candidates for each related category from the document information When,
Obtaining a combination that maximizes the score calculated using the extracted model and the feature vector stored in the extracted model storage means;
When the correct combination of the categories is read out from the correct storage means storing the correct combination, the score is calculated, and the loss of the combination score acquired in the acquiring step with respect to the correct combination score is within a predetermined range Updating the extraction model stored in the extraction model storage means,
For each possible combination of each candidate for the category stored in the prediction target extraction candidate storage means that extracts and stores candidates for each category from the prediction target document information, a feature vector representing the characteristics of the combination is calculated. An information extraction method comprising: obtaining a combination that maximizes a score calculated using the extraction model stored in the extraction model storage unit and the feature vector.
前記抽出モデルを更新するステップは、カテゴリ間あるいはカテゴリ内における誤りコストを格納したコスト記憶手段から前記誤りコストを読み出し、当該誤りコストを用いて前記取得するステップで取得した組み合わせに対するコストを求め、求めたコストを前記所定の範囲とすることを特徴とする請求項1記載の情報抽出方法。   The step of updating the extraction model reads the error cost from a cost storage unit storing error costs between categories or within categories, and obtains a cost for the combination acquired in the acquisition step using the error cost. The information extraction method according to claim 1, wherein the predetermined cost is within the predetermined range. 関連性のあるカテゴリの情報を抽出するための抽出モデルを格納する抽出モデル記憶手段と、
関連性のあるカテゴリそれぞれの候補を文書情報から抽出して格納した抽出候補記憶手段と、
カテゴリそれぞれの正解を格納した正解記憶手段と、
前記抽出候補記憶手段に格納されたカテゴリそれぞれの候補の全ての可能な組み合わせ対して、当該組み合わせの特徴を表す特徴ベクトルを計算する特徴ベクトル計算手段と、
前記抽出モデル記憶手段に格納された抽出モデルと前記特徴ベクトルを用いて算出されるスコアが最大となる組み合わせを取得する組み合わせ取得手段と、
前記正解記憶手段から前記正解の組み合わせを読み出してスコアを計算し、前記正解の組み合わせのスコアに対する前記組み合わせ取得手段が取得した組み合わせのスコアの損失が所定の範囲内の場合は、前記抽出モデル記憶手段に格納された抽出モデルを更新する抽出モデル更新手段と、を有し、
カテゴリそれぞれの候補を予測対象文書情報から抽出して格納した予測対象抽出候補記憶手段と、
前記予測対象抽出候補記憶手段に格納された前記カテゴリそれぞれの候補の全ての可能な組み合わせ対して、当該組み合わせの特徴を表す特徴ベクトルを計算し、前記抽出モデル記憶手段に格納された抽出モデルと前記特徴ベクトルを用いて算出されるスコアが最大となる組み合わせを取得する情報抽出手段と、を有すること
を特徴とする情報抽出装置。
Extraction model storage means for storing an extraction model for extracting relevant category information;
Extraction candidate storage means for extracting and storing candidates for each relevant category from document information;
Correct answer storage means storing correct answers for each category;
Feature vector calculation means for calculating a feature vector representing the characteristics of the combination for all possible combinations of each category candidate stored in the extraction candidate storage means;
A combination acquisition unit that acquires a combination with a maximum score calculated using the extraction model stored in the extraction model storage unit and the feature vector;
When the combination of the correct answers acquired by the combination acquisition means with respect to the correct combination score is within a predetermined range by reading the correct combination from the correct storage means and calculating a score, the extracted model storage means An extraction model updating means for updating the extraction model stored in
Prediction target extraction candidate storage means for extracting and storing candidates for each category from the prediction target document information;
For all possible combinations of candidates for each category stored in the prediction target extraction candidate storage unit, a feature vector representing the characteristics of the combination is calculated, and the extraction model stored in the extraction model storage unit and the And an information extraction unit that obtains a combination that maximizes the score calculated using the feature vector.
カテゴリ間あるいはカテゴリ内における誤りコストを格納したコスト記憶手段を更に備え、
前記抽出モデル更新手段は、前記コスト記憶手段から前記誤りコストを読み出し、当該誤りコストを用いて前記組み合わせ取得手段が取得した組み合わせに対するコストを求め、求めたコストを前記所定の範囲とすることを特徴とする請求項3記載の情報抽出装置。
A cost storage means for storing error costs between categories or within categories;
The extraction model update unit reads the error cost from the cost storage unit, calculates a cost for the combination acquired by the combination acquisition unit using the error cost, and sets the calculated cost as the predetermined range. The information extraction device according to claim 3.
請求項1又は2に記載の情報抽出方法の各ステップをコンピュータに実行させることを特徴とする情報抽出プログラム。   An information extraction program causing a computer to execute each step of the information extraction method according to claim 1.
JP2013022245A 2013-02-07 2013-02-07 Information extraction apparatus, information extraction method, and information extraction program Active JP5863193B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013022245A JP5863193B2 (en) 2013-02-07 2013-02-07 Information extraction apparatus, information extraction method, and information extraction program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013022245A JP5863193B2 (en) 2013-02-07 2013-02-07 Information extraction apparatus, information extraction method, and information extraction program

Publications (2)

Publication Number Publication Date
JP2014153862A true JP2014153862A (en) 2014-08-25
JP5863193B2 JP5863193B2 (en) 2016-02-16

Family

ID=51575692

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013022245A Active JP5863193B2 (en) 2013-02-07 2013-02-07 Information extraction apparatus, information extraction method, and information extraction program

Country Status (1)

Country Link
JP (1) JP5863193B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016110165A (en) * 2014-12-02 2016-06-20 日本電信電話株式会社 Event information extraction system, event information extraction method, and event information extraction program
JP2021131576A (en) * 2020-02-18 2021-09-09 株式会社日立製作所 Case example catalog management device and case example catalog construction method

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007219880A (en) * 2006-02-17 2007-08-30 Fujitsu Ltd Reputation information processing program, method, and apparatus

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007219880A (en) * 2006-02-17 2007-08-30 Fujitsu Ltd Reputation information processing program, method, and apparatus

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016110165A (en) * 2014-12-02 2016-06-20 日本電信電話株式会社 Event information extraction system, event information extraction method, and event information extraction program
JP2021131576A (en) * 2020-02-18 2021-09-09 株式会社日立製作所 Case example catalog management device and case example catalog construction method
JP7418235B2 (en) 2020-02-18 2024-01-19 株式会社日立製作所 Case catalog management device and case catalog construction method

Also Published As

Publication number Publication date
JP5863193B2 (en) 2016-02-16

Similar Documents

Publication Publication Date Title
Zhang et al. Position-aware attention and supervised data improve slot filling
JP6515624B2 (en) Method of identifying lecture video topics and non-transitory computer readable medium
Hendry et al. We ran one regression
CN110582762A (en) Automatic response server device, terminal device, response system, response method, and program
CN112771531A (en) Global to local memory pointer network for task oriented dialog
US20200364243A1 (en) Record matching model using deep learning for improved scalability and adaptability
JPWO2018051841A1 (en) Model learning apparatus, method thereof and program
CN106462626A (en) Modeling interestingness with deep neural networks
Chehreghan et al. A geometric-based approach for road matching on multi-scale datasets using a genetic algorithm
Xue et al. Automatic generation and recommendation for API mashups
US11615294B2 (en) Method and apparatus based on position relation-based skip-gram model and storage medium
JP5863193B2 (en) Information extraction apparatus, information extraction method, and information extraction program
JP6059598B2 (en) Information extraction method, information extraction apparatus, and information extraction program
Atef et al. AQAD: 17,000+ arabic questions for machine comprehension of text
İlhan An Application On mobile devices with android and IOS operating systems using google maps APIs for the traveling salesman problem
CN112862604A (en) Card issuing organization information processing method, device, equipment and storage medium
JP6839001B2 (en) Model learning device, information judgment device and their programs
González-Val US city-size distribution and space
JP5224767B2 (en) Large-scale tagged corpus creation method, apparatus and program thereof
JP6126516B2 (en) Visit POI estimation device
Škraba et al. DEVELOPMENT OF ALGORITHM FOR COMBINATION OF CLOUD SERVICES FOR SPEECH CONTROL OF CYBER-PHYSICAL SYSTEMS.
CN112966095B (en) Software code recommendation method based on JEAN
JP4354324B2 (en) Child care support system
CN109241993B (en) Evaluation object emotion classification method and device integrating user and overall evaluation information
JP6884945B2 (en) Training data generator, optimal parameter acquisition device, training data generation method, and optimal parameter acquisition method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141117

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150727

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150818

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151016

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151216

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151221

R150 Certificate of patent or registration of utility model

Ref document number: 5863193

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150