JP6332035B2 - 文書分析装置、文書分析方法及び文書分析プログラム - Google Patents
文書分析装置、文書分析方法及び文書分析プログラム Download PDFInfo
- Publication number
- JP6332035B2 JP6332035B2 JP2014549825A JP2014549825A JP6332035B2 JP 6332035 B2 JP6332035 B2 JP 6332035B2 JP 2014549825 A JP2014549825 A JP 2014549825A JP 2014549825 A JP2014549825 A JP 2014549825A JP 6332035 B2 JP6332035 B2 JP 6332035B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- ambiguous
- document
- index
- ambiguity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims description 102
- 230000014509 gene expression Effects 0.000 claims description 155
- 238000001514 detection method Methods 0.000 claims description 26
- 238000000034 method Methods 0.000 claims description 24
- 238000011156 evaluation Methods 0.000 claims description 22
- 239000000284 extract Substances 0.000 claims description 16
- 230000009471 action Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 7
- 230000003247 decreasing effect Effects 0.000 claims description 5
- 238000012854 evaluation process Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 19
- 230000010365 information processing Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 8
- 150000001875 compounds Chemical class 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000033772 system development Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 239000000470 constituent Substances 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000033228 biological regulation Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000004776 molecular orbital Methods 0.000 description 1
- 238000004219 molecular orbital method Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
はじめに、本発明の第1の実施形態に係る文書分析装置1について説明する。
曖昧語記憶部108は、省略された概念を読み手に推定させる作用を持ち、接頭語や接尾語などの付属語に属する曖昧語を蓄積することができる。また、曖昧語記憶部108は、曖昧語情報検出部106からの任意の単語に関する問い合わせに対し、問い合わせ対象の単語が曖昧語として登録されているか検索する。そして、曖昧語記憶部108は、曖昧語情報検出部106に対して検索結果を応答する。なお、本実施形態において、曖昧語記憶部108は、一例として外部装置が有する構成として記載しているが、文書分析装置1が有する構成でもよい。また、本実施形態において、一例として曖昧語記憶部108が主体となって動作する例を説明したが、曖昧語記憶部108は、曖昧語を蓄積する動作のみ行ってもよい。
次に、図4乃至9を参照して、具体的な実施例を用いて、本発明の第1の実施形態に係る文書分析装置1の動作について説明する。
(1)式に示す定義可能性指標(P(a+b)j)は、曖昧表現(W(a+b)j)毎に算出される。定義可能性指標(P(a+b)j)は、算出された値が高いほど定義されている可能性が高いことを示す指標である。定義可能性指標(P(a+b)j)は、曖昧表現(W(a+b)j)としてどれだけ使用例があるのかを示す曖昧表現用例指標(I(a+b)j)を、被付属語Wbj自体がどれだけ使用頻度が高いかを示す被付属語用例指標Ibjによって除算するため、以下の2つの特徴がある。1つの特徴は、曖昧表現としてあまり使用されない言葉や、被付属語の使用頻度の割には曖昧表現としてあまり使用されない言葉は、定義されている可能性が低いとみなされることである。もう1つの特徴は、逆に、曖昧表現としてよく使用される言葉や、被付属語の使用頻度の割には曖昧表現としてよく使用される言葉は、定義されている可能性が高いとみなされることである。
次に、本発明の第2の実施形態に係る文書分析装置3について説明する。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
分析対象である文書又は文書群を構成する文章に使用される各単語及びその使用箇所に関する単語情報を抽出する単語分析部と、
抽出された前記単語及び前記単語情報に基づいて、前記文書中において、省略された概念を読み手に推定させる作用を持つ付属語に属する曖昧語、前記曖昧語と結合関係にある被付属語、及び前記曖昧語と前記被付属語とが結合した曖昧表現を検出する曖昧語情報検出部と、
検出された前記被付属語及び前記曖昧表現の含まれる用例の定量的な多さを示す用例指標化ルールに基づいて、前記用例において前記被付属語が含まれる数を示す第1の指標と、前記用例において前記曖昧表現が含まれる数を示す第2の指標と、を算出する用例検索部と、
算出された前記第1の指標と前記第2の指標とを用いて、曖昧表現の語義が定義されている可能性を推定する定義可能性推定ルールに基づいて、前記文書又は前記文書群に含まれる曖昧表現の語義が定義されている可能性を示す第3の指標を推定する定義可能性推定部と、
推定された前記第3の指標に基づいて、前記文書又は前記文書群の曖昧性を示す曖昧性指標を算出する曖昧性評価部と、
を備える文書分析装置。
前記文書の入力を受け付ける文書入力部と、
前記曖昧性指標を出力する曖昧性出力部と、をさらに備える付記1に記載の文書分析装置。
前記用例指標化ルールは、前記被付属語及び前記曖昧表現の前記用例毎の数、種類数及び文書数のいずれかを指標として抽出することにより、前記第1の指標及び前記第2の指標を算出するルールであることを特徴とする付記1又は付記2に記載の文書分析装置。
前記定義可能性推定ルールは、前記第2の指標と単調増加の関係を有し、かつ前記第1の指標と単調減少の関係を成す関数によって導かれる値を、前記第3の指標として定量化するルールであることを特徴とする付記1乃至3の何れかに記載の文書分析装置。
前記定義可能性推定ルールは、前記第3の指標が予め定められた閾値以上の曖昧表現を定義されているか否かの判定に用いるルールであることを特徴とする付記4に記載の文書分析装置。
前記定義可能性推定ルールは、入力に用いた文書内において、前記曖昧表現ごとに曖昧語と連結しない被付属語のみによる使用の有無を調査し、調査の結果に基づいて前記被付属語のみによる使用が無い曖昧表現の群に対して、定義されていると判定されるように閾値を調整するルールであることを特徴とする付記5に記載の文書分析装置。
前記曖昧性評価部は、前記曖昧表現の語義が定義されている可能性が高いほど曖昧性が低いと評価されるように定められた曖昧性評価関数を用いて曖昧性指標を算出することを特徴とする付記1乃至6の何れかに記載の文書分析装置。
前記曖昧性評価関数は、前記第3の指標と単調減少の関係を成す関数であることを特徴とする付記7に記載の文書分析装置。
前記曖昧語情報検出部は、前記単語分析部により抽出された前記単語及び前記単語情報に基づいて曖昧語の有無を、曖昧語が蓄積される曖昧語記憶部に問い合わせることにより、前記曖昧語、前記被付属語及び前記曖昧表現を検出することを特徴とする付記1乃至8の何れかに記載の文書分析装置。
前記用例検索部は、前記曖昧語情報検出部により検出された前記被付属語と前記曖昧表現に基づいて、単語が実際に使用された文書又は文書群を構成する文章の用例が蓄積される用例記憶部に特定の単語に関する情報を問い合わせることにより、該当する用例の数及び内容を検索することを特徴とする付記1乃至9の何れかに記載の文書分析装置。
前記用例記憶部は、インターネット上の文書群あるいは分析する対象の文書と同一ドメインの文書群を蓄積することを特徴とする付記10に記載の文書分析装置。
分析対象である文書又は文書群を構成する文章に使用される各単語及びその使用箇所に関する単語情報を抽出し、
抽出された前記単語及び前記単語情報に基づいて、前記文書中において、省略された概念を読み手に推定させる作用を持つ付属語に属する曖昧語、前記曖昧語と結合関係にある被付属語、及び前記曖昧語と前記被付属語とが結合した曖昧表現を検出し、
検出された前記被付属語及び前記曖昧表現の含まれる用例の定量的な多さを示す用例指標化ルールに基づいて、前記用例において前記被付属語が含まれる数を示す第1の指標と、前記用例において前記曖昧表現が含まれる数を示す第2の指標と、を算出し、
算出された前記第1の指標と前記第2の指標とを用いて、曖昧表現の語義が一般に定義されている可能性を推定する定義可能性推定ルールに基づいて、前記文書又は前記文書群に含まれる曖昧表現の語義が定義されている可能性を示す第3の指標を推定し、
推定された前記第3の指標に基づいて、前記文書又は前記文書群の曖昧性を示す曖昧性指標を算出する、
文書分析方法。
分析対象である文書又は文書群を構成する文章に使用される各単語及びその使用箇所に関する単語情報を抽出する単語分析処理と、
抽出された前記単語及び前記単語情報に基づいて、前記文書中において、省略された概念を読み手に推定させる作用を持つ付属語に属する曖昧語、前記曖昧語と結合関係にある被付属語、及び前記曖昧語と前記被付属語とが結合した曖昧表現を検出する曖昧語情報検出処理と、
検出された前記被付属語及び前記曖昧表現の含まれる用例の定量的な多さを示す用例指標化ルールに基づいて、前記用例において前記被付属語が含まれる数を示す第1の指標と、前記用例において前記曖昧表現が含まれる数を示す第2の指標と、を算出する用例検索処理と、
算出された前記第1の指標と前記第2の指標とを用いて、曖昧表現の語義が一般に定義されている可能性を推定する定義可能性推定ルールに基づいて、前記文書又は前記文書群に含まれる曖昧表現の語義が定義されている可能性を示す第3の指標を推定する定義可能性推定処理と、
推定された前記第3の指標に基づいて、前記文書又は前記文書群の曖昧性を示す曖昧性指標を算出する曖昧性評価処理と、
をコンピュータに実行させるコンピュータプログラム。
2 文書分析システム
10 CPU
12 メモリ
14 HDD
16 通信IF
18 入力装置
20 出力装置
22 リーダーライター
24 記憶媒体
26 バス
50 情報処理端末
102 文書入力部
104、304 単語分析部
106、306 曖昧語情報検出部
108、 曖昧語記憶部
110、310 用例検索部
112 用例記憶部
114、314 定義可能性推定部
116、316 曖昧性評価部
118 曖昧性出力部
202 入力部
204 出力部
206 インターネットサーバ
Claims (9)
- 分析対象である文書又は文書群を構成する文章に使用される各単語及びその使用箇所に関する単語情報を抽出する単語分析手段と、
抽出された前記単語及び前記単語情報に基づいて、前記文書中において、省略された概念を読み手に推定させる作用を持つ付属語に属する曖昧語、前記曖昧語と結合関係にある被付属語、及び前記曖昧語と前記被付属語とが結合した曖昧表現を検出する曖昧語情報検出手段と、
検出された前記被付属語及び前記曖昧表現の含まれる用例の定量的な多さを示す用例指標化ルールに基づいて、前記用例において前記被付属語が含まれる数を示す第1の指標と、前記用例において前記曖昧表現が含まれる数を示す第2の指標と、を算出する用例検索手段と、
算出された前記第1の指標と前記第2の指標とを用いて、曖昧表現の語義が定義されている可能性を推定する定義可能性推定ルールに基づいて、前記文書又は前記文書群に含まれる曖昧表現の語義が定義されている可能性を示す第3の指標を推定する定義可能性推定手段と、
推定された前記第3の指標に基づいて、前記文書又は前記文書群の曖昧性を示す曖昧性指標を算出する曖昧性評価手段と、
を備え、
前記曖昧語情報検出手段は、前記単語分析手段により抽出された前記単語及び前記単語情報に基づいて曖昧語の有無を、曖昧語が蓄積される曖昧語記憶手段に問い合わせることにより、前記曖昧語、前記被付属語及び前記曖昧表現を検出する
文書分析装置。 - 前記文書の入力を受け付ける文書入力手段と、
前記曖昧性指標を出力する曖昧性出力手段と、をさらに備える請求項1に記載の文書分析装置。 - 前記用例指標化ルールは、前記被付属語及び前記曖昧表現の前記用例毎の数、種類数及び文書数のいずれかを指標として抽出することにより、前記第1の指標及び前記第2の指標を算出するルールであることを特徴とする請求項1又は請求項2に記載の文書分析装置。
- 前記定義可能性推定ルールは、前記第2の指標と単調増加の関係を有し、かつ前記第1の指標と単調減少の関係を成す関数によって導かれる値を、前記第3の指標として定量化するルールであることを特徴とする請求項1乃至3の何れかに記載の文書分析装置。
- 前記曖昧性評価手段は、前記曖昧表現の語義が定義されている可能性が高いほど曖昧性が低いと評価されるように定められた曖昧性評価関数を用いて曖昧性指標を算出することを特徴とする請求項1乃至4の何れかに記載の文書分析装置。
- 前記曖昧性評価関数は、前記第3の指標と単調減少の関係を成す関数である
ことを特徴とする請求項5に記載の文書分析装置。 - 前記用例検索手段は、前記曖昧語情報検出手段により検出された前記被付属語と前記曖昧表現に基づいて、単語が実際に使用された文書又は文書群を構成する文章の用例が蓄積される用例記憶手段に特定の単語に関する情報を問い合わせることにより、該当する用例の数及び内容を検索することを特徴とする請求項1乃至6の何れかに記載の文書分析装置。
- コンピュータによって、
分析対象である文書又は文書群を構成する文章に使用される各単語及びその使用箇所に関する単語情報を抽出し、
抽出された前記単語及び前記単語情報に基づいて、前記文書中において、省略された概念を読み手に推定させる作用を持つ付属語に属する曖昧語、前記曖昧語と結合関係にある被付属語、及び前記曖昧語と前記被付属語とが結合した曖昧表現を検出し、
検出された前記被付属語及び前記曖昧表現の含まれる用例の定量的な多さを示す用例指標化ルールに基づいて、前記用例において前記被付属語が含まれる数を示す第1の指標と、前記用例において前記曖昧表現が含まれる数を示す第2の指標と、を算出し、
算出された前記第1の指標と前記第2の指標とを用いて、曖昧表現の語義が一般に定義されている可能性を推定する定義可能性推定ルールに基づいて、前記文書又は前記文書群に含まれる曖昧表現の語義が定義されている可能性を示す第3の指標を推定し、
推定された前記第3の指標に基づいて、前記文書又は前記文書群の曖昧性を示す曖昧性指標を算出し、
前記コンピュータによって前記検出することは、抽出された前記単語及び前記単語情報に基づいて曖昧語の有無を、曖昧語が蓄積される曖昧語記憶手段に問い合わせることにより、前記曖昧語、前記被付属語及び前記曖昧表現を検出することを含む、
文書分析方法。 - コンピュータに、
分析対象である文書又は文書群を構成する文章に使用される各単語及びその使用箇所に関する単語情報を抽出する単語分析処理と、
抽出された前記単語及び前記単語情報に基づいて、前記文書中において、省略された概念を読み手に推定させる作用を持つ付属語に属する曖昧語、前記曖昧語と結合関係にある被付属語、及び前記曖昧語と前記被付属語とが結合した曖昧表現を検出する曖昧語情報検出処理と、
検出された前記被付属語及び前記曖昧表現の含まれる用例の定量的な多さを示す用例指標化ルールに基づいて、前記用例において前記被付属語が含まれる数を示す第1の指標と、前記用例において前記曖昧表現が含まれる数を示す第2の指標と、を算出する用例検索処理と、
算出された前記第1の指標と前記第2の指標とを用いて、曖昧表現の語義が一般に定義されている可能性を推定する定義可能性推定ルールに基づいて、前記文書又は前記文書群に含まれる曖昧表現の語義が定義されている可能性を示す第3の指標を推定する定義可能性推定処理と、
推定された前記第3の指標に基づいて、前記文書又は前記文書群の曖昧性を示す曖昧性指標を算出する曖昧性評価処理と、
前記曖昧語情報検出処理に含まれる、抽出された前記単語及び前記単語情報に基づいて曖昧語の有無を、曖昧語が蓄積される曖昧語記憶手段に問い合わせることにより、前記曖昧語、前記被付属語及び前記曖昧表現を検出すること、
を実行させるための文書分析プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012258594 | 2012-11-27 | ||
JP2012258594 | 2012-11-27 | ||
PCT/JP2013/006919 WO2014083835A1 (ja) | 2012-11-27 | 2013-11-26 | 文書分析装置、文書分析方法及び記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2014083835A1 JPWO2014083835A1 (ja) | 2017-01-05 |
JP6332035B2 true JP6332035B2 (ja) | 2018-05-30 |
Family
ID=50827496
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014549825A Active JP6332035B2 (ja) | 2012-11-27 | 2013-11-26 | 文書分析装置、文書分析方法及び文書分析プログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6332035B2 (ja) |
WO (1) | WO2014083835A1 (ja) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01243116A (ja) * | 1988-03-25 | 1989-09-27 | Hitachi Ltd | 日本文処理方法 |
JP2009510639A (ja) * | 2005-10-04 | 2009-03-12 | トムソン グローバル リソーシーズ | 医療用語の曖昧性を判定するシステム、方法およびソフトウェア |
JP5245291B2 (ja) * | 2007-05-24 | 2013-07-24 | 富士ゼロックス株式会社 | 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム |
JP5128328B2 (ja) * | 2008-03-13 | 2013-01-23 | 日本放送協会 | 曖昧性評価装置およびプログラム |
-
2013
- 2013-11-26 JP JP2014549825A patent/JP6332035B2/ja active Active
- 2013-11-26 WO PCT/JP2013/006919 patent/WO2014083835A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2014083835A1 (ja) | 2014-06-05 |
JPWO2014083835A1 (ja) | 2017-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100544514B1 (ko) | 검색 쿼리 연관성 판단 방법 및 시스템 | |
KR102080362B1 (ko) | 쿼리 확장 | |
JP6007088B2 (ja) | 大量のコメント文章を用いた質問回答プログラム、サーバ及び方法 | |
JP4920023B2 (ja) | オブジェクト間競合指標計算方法およびシステム | |
JP4953468B2 (ja) | オントロジーデータのインポート/エクスポートのための方法および装置 | |
CN105488077B (zh) | 生成内容标签的方法和装置 | |
CN110390044B (zh) | 一种相似网络页面的搜索方法及设备 | |
US9164980B2 (en) | Name identification rule generating apparatus and name identification rule generating method | |
JP5010885B2 (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
US9251248B2 (en) | Using context to extract entities from a document collection | |
TWI656450B (zh) | 從中文語料庫提取知識的方法和系統 | |
CN102169496A (zh) | 基于锚文本分析的领域术语自动生成方法 | |
JP5057474B2 (ja) | オブジェクト間の競合指標計算方法およびシステム | |
WO2014002774A1 (ja) | 同義語抽出システム、方法および記録媒体 | |
JP2005250980A (ja) | 文書検索システム、検索条件入力装置、検索実行装置、文書検索方法、および文書検索プログラム | |
CN111324705B (zh) | 自适应性调整关联搜索词的系统及其方法 | |
CN103092838B (zh) | 一种获取英文词的方法及装置 | |
JP6332035B2 (ja) | 文書分析装置、文書分析方法及び文書分析プログラム | |
KR101614551B1 (ko) | 카테고리 매칭을 이용한 키워드 추출 시스템 및 방법 | |
US10606875B2 (en) | Search support apparatus and method | |
JP6173958B2 (ja) | 複数のハッシュテーブルを用いて検索するプログラム、装置及び方法 | |
US9311392B2 (en) | Document analysis apparatus, document analysis method, and computer-readable recording medium | |
CN109446239A (zh) | 线下文本挖掘方法、装置及计算机可读存储介质 | |
JP2014235584A (ja) | 文書分析システム、文書分析方法およびプログラム | |
JP5811795B2 (ja) | 文書分析システム、文書分析方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161014 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171226 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180221 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180403 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180416 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6332035 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |