JP5184195B2 - 言語処理装置およびプログラム - Google Patents
言語処理装置およびプログラム Download PDFInfo
- Publication number
- JP5184195B2 JP5184195B2 JP2008113908A JP2008113908A JP5184195B2 JP 5184195 B2 JP5184195 B2 JP 5184195B2 JP 2008113908 A JP2008113908 A JP 2008113908A JP 2008113908 A JP2008113908 A JP 2008113908A JP 5184195 B2 JP5184195 B2 JP 5184195B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- sentence
- processing target
- pair
- occurrence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
北研二,「言語と計算 4 確率的言語モデル」,東京大学出版会,p.11,1999年
つまり、同一文に出現する他の単語(共起単語)が、処理対象とする2つの名詞の関係名を示すかを判定することができる。この結果、出現頻度が低い単語間の関係も高精度に推定することができる。
この言語処理装置が処理の対象とする単語の典型例は、名詞である。このとき、処理対象単語ペアは、処理対象名詞ペアである。共起単語の典型例は共起名詞である。
また、機械学習処理に用いた元の入力テキストデータには含まれていなかった別の文を判定対象とすることもできる。
次に、本発明の一実施形態について、図面を参照しながら説明する。
図1は、本実施形態による言語処理装置の機能構成を示すブロック図である。この図において、符号1は言語処理装置である。図示するように、言語処理装置1は、入力テキスト記憶部2と、学習結果データ記憶部3と、出力データ4と、処理対象単語ペア特徴抽出部11と、共起名詞特徴抽出部12(共起単語特徴抽出部)と、構文構造特徴抽出部13と、機械学習処理部14と、確率値計算処理部15とを含んで構成される。
出力データ4は、確率値計算処理部15によって出力されるデータである。
第2のリスト=「イヌワシ」から共通係り先の文節「天敵です」までの構文構造: 「名詞2」,は
第3のリスト=「天敵です」を修飾する構文構造: 恐ろしい,NULL,「名詞3」
第1のリスト=「プレーリードッグ」から「天敵です」までの構文構造: 「名詞1」,にとって
第2のリスト=「イヌワシ」から「天敵です」までの構文構造: 「名詞2」,は
第3のリスト=「天敵です」を修飾する構文構造: 「名詞3」
そして、第1の文の3つのリストと第2の文の3つのリストとの間の共通単語は、「にとって」と「は」であり、これらが第1の文と第2の文に出現しているので、共通単語数は4である。また、共通でない単語は「恐ろしい」と「NULL」であり、共通でない単語数は2である。よって、これらの文の類似度は4/(4+2)であり、即ち4/6と計算できる。
一文中に出現する与えられた処理対象属性に属する名詞ペアと、当該文に出現する他の名詞と、これら3つの名詞間の構文構造の3項組をtiと表現する。また、この3項組に含まれる名詞ペアをCPtiとし、同一文に出現する他の名詞であって関係候補となる名詞をRPtiとし、これら3つの名詞間の構文構造をSPtiとする。
機械学習処理部14は、まずステップS04において、それらの入力データから、明らかに関係を表すと判断できる文を抽出する。例えば、動物を処理対象概念とした場合、共起名詞特徴抽出部12で得られた共起名詞(この共起名詞は、単語ペアの関係を表わす候補である)が、「弱い」、「大好物」、「好物」、「天敵」、「敵」、「仲間」、「大敵」、「得意」、「種類」、「獲物」、「食べる」などやその同義語や類義語である文を抽出する。これらは、動物という処理対象概念について関係を表すと明らかに判断できる名詞であるためである。なお、処理対象概念とここで抽出対象となる名詞(単語)との関係は、予め定義した処理対象概念関連語データとして記憶部(図示せず)に記憶しておく。例えば、概念辞書のデータをその目的のデータとして使用することができる。機械学習処理部14は、この処理対象概念関連語データを記憶部から読み出して(参照して)比較することにより、共起名詞特徴抽出部12で得られた共起名詞がその処理対象概念についての関係を表わすか否かを判断し、その判断に基づき、入力データの中から関係を表すと判別できる文を抽出する。
参考文献: Kamel Nigam et al.,“Text Classification from Labeled and Unlabeled Document using EM.”,Machine Learning,Vol.39,No.2/3,pp.103-134 (2000).
図3は、機械学習処理部14がEMアルゴリズムを用いて行なう機械学習処理の手順を示すフローチャートである。
まずステップS21において、機械学習処理部14は、入力テキスト記憶部2から処理対象のテキストデータを読み込み、このテキストデータから得られるtiが属するクラスcjの初期確率P(cj|ti)を、下の式(2)により計算する。なお、クラスcjは、c0またはc1のいずれかであり、それらの定義は前述の通りである。
なお、ステップS22の各確率を計算する処理は、EMアルゴリズムのMステップである。
また、式(4)が表わすように、確率P(RPti|cj)の分母の第1項は共起名詞の出現総数である。分母の第2項は、3項組tkに共起名詞RPtmが含まれる場合のtkを前提としたcjの条件付き確率(便宜的にXrと呼ぶ)の、全ての3項組且つ全ての共起名詞についての総和である。また、分子の第1項は定数項(1)である。分子の第2項は、上記Xrの、当該共起名詞RPtiについての全ての3項組についての総和である。
また、式(5)が表わすように、確率P(SPti|cj)の分母の第1項は構文構造の出現総数である。分母の第2項は、3項組tkに構文構造SPtmが含まれる場合のtkを前提としたcjの条件付き確率(便宜的にXsと呼ぶ)の、全ての3項組且つ全ての構文構造についての総和である。また、分子の第1項は定数項(1)である。分子の第2項は、上記Xsの、当該構文構造SPtiについての全ての3項組についての総和である。
テキストから関係を抽出するという上記一連の処理を、実データに対象として行なった結果について、次に説明する。ここでは、処理対象属性(対象概念)を「動物」とし、処理対象データは日本放送協会(NHK)によって制作・放送された動物に関するテレビ番組のクローズドキャプションデータを用いている。
前記の実施形態では、入力テキスト記憶部2と、学習結果データ記憶部3と、出力データ4と、処理対象単語ペア特徴抽出部11と、共起名詞特徴抽出部12と、構文構造特徴抽出部13と、機械学習処理部14と、確率値計算処理部15とをすべて一体として含んだ言語処理装置の構成としたが、例えば、処理対象単語ペア特徴抽出部11と、共起名詞特徴抽出部12と、構文構造特徴抽出部13と、機械学習処理部14とを含んで機械学習処理までを行なう装置と、確率値計算処理部15を含んで与えられた学習結果データを用いて確率値計算処理(判定処理)の部分を行なう装置に分けて構成しても良い。このとき、学習結果データは、両装置によって共有される記憶手段を介して渡したり、通信線を介して渡したりするように構成する。このように装置を分けた場合、機械学習処理までの部分と確率値計算処理の部分とを別に行なうことができる。また、予め機械学習処理を行なっておき、その結果得られる学習結果データを用いて繰り返し確率値計算処理を行なうこともできる。また、入力テキストと類似分野の文(学習結果データが有効であるような文)であれば、元の入力テキストに含まれていない文を対象として確率値計算処理を行なうこともできる。
2 入力テキスト記憶部
3 学習結果データ記憶部
4 出力データ
11 処理対象単語ペア特徴抽出部
12 共起名詞特徴抽出部(共起単語特徴抽出部)
13 構文構造特徴抽出部
14 機械学習処理部
15 確率値計算処理部
Claims (7)
- 複数の文を含む入力テキストデータに基づき、一つの文に含まれる単語のペアである処理対象単語ペアと当該文の中に出現する他の単語である共起単語と当該文の構文構造とからなる3項組に関して、前記3項組に含まれる前記処理対象単語ペアが他の3項組に含まれるか否かを表わす、前記処理対象単語ペアの出現頻度特徴を抽出する処理対象単語ペア特徴抽出部と、
前記入力テキストデータに基づき、前記3項組に含まれる前記共起単語が他の3項組に含まれるか否かを表わす、前記共起単語の出現頻度特徴を抽出する共起単語特徴抽出部と、
前記入力テキストデータに基づき、前記3項組に含まれる前記構文構造が他の3項組に含まれるか否かを表わす、前記構文構造の出現頻度特徴を抽出する構文構造特徴抽出部と、
前記共起単語が前記処理対象単語ペアの関係を表わすクラスに属すると判別できる前記入力テキストデータ中の文を正解サンプルとして、前記処理対象単語ペアの出現頻度特徴と、前記共起単語の出現頻度特徴と、前記構文構造の出現頻度特徴とに基づいて、機械学習処理を行い、前記3項組が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記処理対象単語ペアが出現する条件付き確率、および前記3項組が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記共起単語が出現する条件付き確率、および前記3項組が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記構文構造が出現する条件付き確率を、学習結果データとして学習結果データ記憶部に書き込む処理を行なう機械学習処理部と、
を備えることを特徴とする言語処理装置。 - 請求項1に記載の言語処理装置において、
前記構文構造特徴抽出部は、前記文の構文解析結果に基づき、前記処理対象単語ペアに含まれる第1の単語と当該処理対象単語ペアに含まれる第2の単語と前記共起単語との共通係り先文節を取り出し、前記第1の単語から前記共通係り先文節までの構文構造と、前記第2の単語から前記共通係り先文節までの構文構造と、前記共通係り先文節を修飾する構文構造との組み合わせにより当該文の構文構造を同定する、
ことを特徴とする言語処理装置。 - 請求項2に記載の言語処理装置において、
前記構文構造特徴抽出部は、前記構文構造を表わす単語のリストに出現する単語であって、前記第1の単語でも前記第2の単語でも前記共起単語でもない単語が共通である割合が所定の閾値以上であるような複数の構文構造を類似の構文構造を有する構文構造グループとし、この構文構造グループの出現頻度特徴を前記構文構造の出現頻度特徴として抽出する、
ことを特徴とする言語処理装置。 - 前記機械学習処理部は、処理対象概念関連語を予め記憶した処理対象概念関連語データを参照し、前記共起単語が前記処理対象概念関連語データに含まれているか否かにより、前記共起単語を含む文が、前記共起単語が前記処理対象単語ペアの関係を表わすクラスに属するか否かを判別する、
ことを特徴とする請求項1から3までのいずれか一項に記載の言語処理装置。 - 請求項1から4までのいずれか一項に記載の言語処理装置において、
前記学習結果データ記憶部から読み出した前記学習結果データを用いて、文に前記処理対象単語ペアが出現することを前提として当該文が前記クラスに属する条件付き確率と、文に前記共起単語が出現することを前提として当該文が前記クラスに属する条件付き確率と、文に前記構文構造が出現することを前提として当該文が前記クラスに属する条件付き確率とを算出する確率値計算処理部と、
をさらに具備することを特徴とする言語処理装置。 - 請求項1から4までのいずれか一項に記載の言語処理装置によって前記学習結果データ記憶部に書き込まれた前記学習結果データを用いて、文に前記処理対象単語ペアが出現することを前提として当該文が前記クラスに属する条件付き確率と、文に前記共起単語が出現することを前提として当該文が前記クラスに属する条件付き確率と、文に前記構文構造が出現することを前提として当該文が前記クラスに属する条件付き確率とを算出する確率値計算処理部を具備することを特徴とする言語処理装置。
- 複数の文を含む入力テキストデータに基づき、一つの文に含まれる単語のペアである処理対象単語ペアと当該文の中に出現する他の単語である共起単語と当該文の構文構造とからなる3項組に関して、前記3項組に含まれる前記処理対象単語ペアが他の3項組に含まれるか否かを表わす、前記処理対象単語ペアの出現頻度特徴を抽出する処理対象単語ペア特徴抽出過程と、
前記入力テキストデータに基づき、前記3項組に含まれる前記共起単語が他の3項組に含まれるか否かを表わす、前記共起単語の出現頻度特徴を抽出する共起単語特徴抽出過程と、
前記入力テキストデータに基づき、前記3項組に含まれる前記構文構造が他の3項組に含まれるか否かを表わす、前記構文構造の出現頻度特徴を抽出する構文構造特徴抽出過程と、
前記共起単語が前記処理対象単語ペアの関係を表わすクラスに属すると判別できる前記入力テキストデータ中の文を正解サンプルとして、前記処理対象単語ペアの出現頻度特徴と、前記共起単語の出現頻度特徴と、前記構文構造の出現頻度特徴とに基づいて、機械学習処理を行い、前記3項組が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記処理対象単語ペアが出現する条件付き確率、および前記3項組が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記共起単語が出現する条件付き確率、および前記3項組が前記処理対象単語ペアの関係を表わすクラスに属することを前提としたとき前記構文構造が出現する条件付き確率を、学習結果データとして学習結果データ記憶部に書き込む処理を行なう機械学習処理過程と、
の処理をコンピュータに実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008113908A JP5184195B2 (ja) | 2008-04-24 | 2008-04-24 | 言語処理装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008113908A JP5184195B2 (ja) | 2008-04-24 | 2008-04-24 | 言語処理装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009265889A JP2009265889A (ja) | 2009-11-12 |
JP5184195B2 true JP5184195B2 (ja) | 2013-04-17 |
Family
ID=41391679
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008113908A Active JP5184195B2 (ja) | 2008-04-24 | 2008-04-24 | 言語処理装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5184195B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5382651B2 (ja) * | 2009-09-09 | 2014-01-08 | 独立行政法人情報通信研究機構 | 単語対取得装置、単語対取得方法、およびプログラム |
JP5291645B2 (ja) * | 2010-02-25 | 2013-09-18 | 日本電信電話株式会社 | データ抽出装置、データ抽出方法、及びプログラム |
JP5622310B2 (ja) * | 2010-08-19 | 2014-11-12 | 独立行政法人情報通信研究機構 | 相互機械学習装置、相互機械学習方法、及びプログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007219947A (ja) * | 2006-02-17 | 2007-08-30 | Nippon Hoso Kyokai <Nhk> | 因果関係知識抽出装置及びプログラム |
-
2008
- 2008-04-24 JP JP2008113908A patent/JP5184195B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2009265889A (ja) | 2009-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102431549B1 (ko) | 인과 관계 인식 장치 및 그것을 위한 컴퓨터 프로그램 | |
US10725836B2 (en) | Intent-based organisation of APIs | |
US20160140109A1 (en) | Generation of a semantic model from textual listings | |
RU2679988C1 (ru) | Извлечение информационных объектов с помощью комбинации классификаторов | |
CN103646112B (zh) | 利用了网络搜索的依存句法的领域自适应方法 | |
US11113470B2 (en) | Preserving and processing ambiguity in natural language | |
CN103593412B (zh) | 一种基于树形结构问题的应答方法及系统 | |
JP2011118689A (ja) | 検索方法及びシステム | |
JP2011227758A (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN109471889B (zh) | 报表加速方法、系统、计算机设备和存储介质 | |
CN111190873B (zh) | 一种用于云原生系统日志训练的日志模式提取方法及系统 | |
JP2006065387A (ja) | テキスト文検索装置、テキスト文検索方法、及びテキスト文検索プログラム | |
CN108399265A (zh) | 基于搜索的实时热点新闻提供方法及装置 | |
TW201335776A (zh) | 辭典產生裝置、辭典產生方法、辭典產生程式、及記憶該程式之電腦可讀取記錄媒體 | |
Olariu | Hierarchical clustering in improving microblog stream summarization | |
JP5184195B2 (ja) | 言語処理装置およびプログラム | |
JP6867963B2 (ja) | 要約評価装置、方法、プログラム、及び記憶媒体 | |
CN113392305A (zh) | 关键词的提取方法及装置、电子设备、计算机存储介质 | |
Ledeneva et al. | Graph ranking on maximal frequent sequences for single extractive text summarization | |
JP2010102521A (ja) | 辞書作成装置、辞書作成方法および辞書作成プログラム並びに辞書作成プログラムを記録した記録媒体 | |
US20110106849A1 (en) | New case generation device, new case generation method, and new case generation program | |
CN112087473A (zh) | 文档下载方法、装置、计算机可读存储介质和计算机设备 | |
JP2017027106A (ja) | 類似度算出装置、類似検索装置、および類似度算出プログラム | |
JP5100203B2 (ja) | テキスト分析装置およびテキスト分析プログラム | |
Colmenares et al. | Headline generation as a sequence prediction with conditional random fields |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101201 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121018 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121030 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121129 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121218 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130116 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5184195 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160125 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |