JP5128328B2 - 曖昧性評価装置およびプログラム - Google Patents
曖昧性評価装置およびプログラム Download PDFInfo
- Publication number
- JP5128328B2 JP5128328B2 JP2008064107A JP2008064107A JP5128328B2 JP 5128328 B2 JP5128328 B2 JP 5128328B2 JP 2008064107 A JP2008064107 A JP 2008064107A JP 2008064107 A JP2008064107 A JP 2008064107A JP 5128328 B2 JP5128328 B2 JP 5128328B2
- Authority
- JP
- Japan
- Prior art keywords
- expression
- ambiguity
- unit
- independent word
- independent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
河原大輔,黒橋禎夫,「用言と直前の格要素の組を単位とする格フレームの自動構築」,自然言語処理,2002年,Vol.9,No.1,pp.3-19.
ここで、テキストとは、文、文章、Nグラムなどのデータである。また、評価対象の表現とは、単語や節である。節とは、名詞節、形容詞節、副詞節などである。
上記の構成によれば、記憶手段は、例えばウェブコンテンツや放送字幕テキストなどから収集された、大量のテキストの実例をコーパスとして保持する。表現抽出部は、そのようなコーパスから評価対象の表現を含むテキストのみを抽出する。元のコーパスが膨大な量のテキストである場合、表現抽出部によって抽出されるテキストも、充分な量を有するとともに、当該表現に関する多様な用例を含んでおり、それら用例を統計的に分析するのに適している。修飾文節抽出部は、上記のテキスト中で当該表現を修飾する文節を抽出する。そして、これらの統計量を基に算出される評価値は、当該表現の用例の種類数やその頻度分布を反映した値となり、当該表現の曖昧性の評価値として用いることができる。つまり、曖昧性に関しては、単に必須格の有無に基づくよりも、正確で安定的な結果を得ることができる。
この構成によると、自立語出現回数カウント部が修飾文節抽出部によって抽出された文節に含まれる自立語ごとの出現回数をカウントする。自立語ごとの出現回数は、評価対象の表現を抽出する文節の種類ごとの出現回数を近似的に表わし、かつ統計的に安定している。これにより、評価対象の表現を抽出する文節の種類ごとの出現頻度に応じた評価値を算出できる。
図1は、本実施形態による曖昧性評価装置の機能構成を示すブロック図である。図示するように、本実施形態による曖昧性評価装置100は、節や単語などといった表現を表わすデータ(文字による)を入力とし、入力された表現に対する曖昧性評価値を出力する。そして、曖昧性評価装置100は、表現抽出部1と、修飾文節抽出部2と、曖昧性評価処理部3と、大規模コーパス記憶部4(記憶手段)とを含んで構成される。
図2は、曖昧性評価装置100による全体の処理手順を示すフローチャートである。
但し、このとき、入力された表現を修飾する文節であっても、時間表現による文節や人物表現に関する文節を除外するようにしても良い。具体的には、語のカテゴリーとして、時間表現に関する語や人物表現に関する語については、その旨を予め辞書データに登録しておき、評価対象の表現を修飾する文節に含まれる主要な自立語がそれらに該当するか否かを判断することにより、時間表現による文節や人物表現に関する文節を除外することができる。
なお、抽出されたNグラムを構文解析した結果は、そのNグラムが含まれる文全体を構文解析した結果と異なる場合はあるが、本実施形態はその結果を統計的に利用するものであるため、元のNグラムコーパスが充分に大規模なものであれば、それらの構文解析結果の差は、許容される誤差の範囲内に収まることがわかっている。
図3は、曖昧性評価処理部3の内部の詳細機能構成を示すブロック図である。図示するように、曖昧性評価処理部3は、自立語抽出部31と、対象表現出現回数カウント部32と、自立語出現回数カウント部33と、評価値算出部34とを備えて構成されている。
自立語抽出部31は、評価対象の表現を修飾する文節群の中から、自立語を抽出する。自立語については後で説明する。
対象表現出現回数カウント部32は、評価対象の表現を含む文群(またはNグラム群)に含まれる対象表現の出現回数(またはNグラムの数)をカウントする。
自立語出現回数カウント部33は、自立語抽出部31によって抽出された自立語のそれぞれについて、評価対象の表現を抽出する文節群の中における出現回数をカウントする。
評価値算出部34は、対象表現出現回数カウント部32によってカウントされた対象表現の出現回数と、自立語出現回数カウント部33によってカウントされた自立語ごとの出現回数とに基づいて、評価値を算出する。
曖昧性評価処理部3の処理としては、まず、自立語抽出部31が、評価対象の表現を修飾する文節群から、そこに含まれる自立語を抽出する処理を行なう。自立語とはその単語単独で意味をもつ単語である。ある単語が自立語であるか否かは、その品詞によって決まる。日本語においては、自立語に含まれる品詞は一般的には、動詞、形容詞、形容動詞、名詞(代名詞、数詞を含む)、連体詞、副詞、接続詞、感動詞である。自立語に含まれない(つまり付属語である)品詞は一般的には助詞、助動詞である。自立語の抽出の際には、適宜辞書データ等を参照する。但し、コーパスに予め品詞情報が付加されている場合などには、その品詞情報を参照する。
自立語出現回数カウント部33によってカウントされた自立語の種類数は、評価対象の表現を修飾する文節の種類数を近似する値として扱うことができる。また、自立語出現回数カウント部33によってカウントされた自立語の出現頻度は、評価対象の表現を修飾する文節の出現頻度を近似する値として扱うことができる。文節の種類や出現頻度を直接使おうとすると、自立語以外の部分の表現のばらつきが出てしまうが、自立語出現回数カウント部33が行なう処理のように文節に含まれる自立語の統計量を算出して用いることにより、そのようなばらつきを吸収して曖昧性を評価することができる。
そして、評価値算出部34は、上記の式によって算出した曖昧性評価値H(p)を算出する。
なお、図に示した曖昧性評価値の算出結果は、節に対するものであるが、名詞に対する曖昧性評価値も同様の処理手順により算出することができる。
曖昧性評価値H(p)を計算するための式(1)を上で示したが、評価値の算出方法はこの式に限定されず、評価対象の表現を修飾する文節内の自立語の種類数が多いほど評価値が高くなり、また自立語ごとの出現頻度を対象表現の出現回数で除して得られる自立語出現確率が一様である度合いが高いほど評価値が高くなり、前記表現の直前に区切れ目の出現が少ないほど前記評価値が高くなるような他の計算式を適宜用いるようにしても良い。さらに、評価対象の表現を修飾する文節の種類数が多いほど評価値が高くなり、また文節の種類ごとの出現頻度が一様である度合いが高いほど評価値が高くなるような他の計算式を適宜用いるようにしても良い。
2 修飾文節抽出部
3 曖昧性評価処理部
4 大規模コーパス記憶部(記憶手段)
31 自立語抽出部
32 対象表現出現回数カウント部
33 自立語出現回数カウント部
34 評価値算出部
100 曖昧性評価装置
Claims (3)
- 複数のテキストを記憶する記憶手段に含まれるテキストの中から、評価対象の表現を含む前記テキストを抽出する表現抽出部と、
前記表現抽出部によって抽出された前記テキスト内において前記表現を修飾する文節を抽出する修飾文節抽出部と、
前記表現抽出部によって抽出された前記テキストと、前記修飾文節抽出部によって抽出された前記文節とを基に、前記表現の曖昧性を表わす評価値を算出する曖昧性評価処理部と、
を具備し、
前記曖昧性評価処理部は、
前記表現抽出部によって抽出された前記テキスト中における前記表現の出現回数をカウントする対象表現出現回数カウント部と、
前記修飾文節抽出部によって抽出された文節に含まれる自立語ごとの出現回数をカウントする自立語出現回数カウント部と、
前記対象表現出現回数カウント部によってカウントされた前記表現の出現回数と、前記自立語出現回数カウント部によってカウントされた自立語ごとの出現回数とに基づいて、前記自立語の種類数が多いほど前記評価値が高くなり、また前記自立語ごとの出現頻度を前記表現の出現回数で除して得られる自立語出現確率が一様である度合いが高いほど前記評価値が高くなるように、前記評価値を算出する評価値算出部と、
を含む
ことを特徴とする曖昧性評価装置。 - 前記曖昧性評価処理部は、前記表現を修飾する文節内に出現するそれぞれの前記自立語の出現頻度を前記表現の出現回数で除した値を自立語出現確率とし、前記自立語出現確率と当該自立語出現確率の対数との積の、すべての自立語についての総和に、負符号を付けた値を、前記評価値として算出する、
ことを特徴とする請求項1に記載の曖昧性評価装置。 - 複数のテキストを記憶する記憶手段に含まれるテキストの中から、評価対象の表現を含む前記テキストを抽出する表現抽出過程と、
前記表現抽出過程によって抽出された前記テキスト内において前記表現を修飾する文節を抽出する修飾文節抽出過程と、
前記表現抽出過程によって抽出された前記テキストと、前記修飾文節抽出過程によって抽出された前記文節とを基に、前記表現の曖昧性を表わす評価値を算出する曖昧性評価処理過程と、
の処理をコンピュータに実行させるプログラムであって、
前記曖昧性評価処理過程は、
前記表現抽出過程によって抽出された前記テキスト中における前記表現の出現回数をカウントする対象表現出現回数カウント過程と、
前記修飾文節抽出過程によって抽出された文節に含まれる自立語ごとの出現回数をカウントする自立語出現回数カウント過程と、
前記対象表現出現回数カウント過程によってカウントされた前記表現の出現回数と、前記自立語出現回数カウント過程によってカウントされた自立語ごとの出現回数とに基づいて、前記自立語の種類数が多いほど前記評価値が高くなり、また前記自立語ごとの出現頻度を前記表現の出現回数で除して得られる自立語出現確率が一様である度合いが高いほど前記評価値が高くなるように、前記評価値を算出する評価値算出過程と、
を含むプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008064107A JP5128328B2 (ja) | 2008-03-13 | 2008-03-13 | 曖昧性評価装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008064107A JP5128328B2 (ja) | 2008-03-13 | 2008-03-13 | 曖昧性評価装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009223373A JP2009223373A (ja) | 2009-10-01 |
JP5128328B2 true JP5128328B2 (ja) | 2013-01-23 |
Family
ID=41240121
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008064107A Expired - Fee Related JP5128328B2 (ja) | 2008-03-13 | 2008-03-13 | 曖昧性評価装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5128328B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103119585B (zh) * | 2010-12-17 | 2015-12-02 | 北京交通大学 | 知识获取装置及方法 |
WO2014083835A1 (ja) * | 2012-11-27 | 2014-06-05 | 日本電気株式会社 | 文書分析装置、文書分析方法及び記憶媒体 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3366253B2 (ja) * | 1998-05-21 | 2003-01-14 | 三菱電機株式会社 | 音声合成装置 |
JP3946115B2 (ja) * | 2002-09-19 | 2007-07-18 | 日本電信電話株式会社 | 応答対話文生成方法、応答対話文作成装置、応答対話文作成プログラム、このプログラムを記録した記録媒体 |
AR056123A1 (es) * | 2005-10-04 | 2007-09-19 | Thomson Global Resources | Sistemas, metodos y software para determinar la ambiguedad de terminos medicos |
-
2008
- 2008-03-13 JP JP2008064107A patent/JP5128328B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009223373A (ja) | 2009-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11687727B2 (en) | Robust natural language parser | |
US9575955B2 (en) | Method of detecting grammatical error, error detecting apparatus for the method, and computer-readable recording medium storing the method | |
Evert | The statistics of word cooccurrences: word pairs and collocations | |
US8185377B2 (en) | Diagnostic evaluation of machine translators | |
US8285541B2 (en) | System and method for handling multiple languages in text | |
KR101498331B1 (ko) | 텍스트 세그먼트를 가진 문서로부터 용어를 추출하기 위한 시스템 | |
EP3016002A1 (en) | Non-factoid question-and-answer system and method | |
US20060235689A1 (en) | Question answering system, data search method, and computer program | |
US20070073745A1 (en) | Similarity metric for semantic profiling | |
US20070073678A1 (en) | Semantic document profiling | |
US8375033B2 (en) | Information retrieval through identification of prominent notions | |
US9600469B2 (en) | Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon | |
US8443008B2 (en) | Cooccurrence dictionary creating system, scoring system, cooccurrence dictionary creating method, scoring method, and program thereof | |
Erdmann et al. | Improving the extraction of bilingual terminology from Wikipedia | |
JP2011118689A (ja) | 検索方法及びシステム | |
Bella et al. | Domain-based sense disambiguation in multilingual structured data | |
CN111651559A (zh) | 一种基于事件抽取的社交网络用户关系抽取方法 | |
CN114970516A (zh) | 数据增强方法及装置、存储介质、电子设备 | |
Bölücü et al. | Unsupervised joint PoS tagging and stemming for agglutinative languages | |
CN113743090A (zh) | 一种关键词提取方法及装置 | |
CN113360004A (zh) | 输入法候选词推荐方法及装置 | |
JP5128328B2 (ja) | 曖昧性評価装置およびプログラム | |
Channell et al. | Automated grammatical tagging of child language samples | |
JP2003167898A (ja) | 情報検索システム | |
Al-Arfaj et al. | Arabic NLP tools for ontology construction from Arabic text: An overview |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100310 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120508 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120704 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121002 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121031 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5128328 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151109 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |