JP6677158B2 - 文書データ処理装置、文書データ処理方法、及び文書データ処理プログラム - Google Patents
文書データ処理装置、文書データ処理方法、及び文書データ処理プログラム Download PDFInfo
- Publication number
- JP6677158B2 JP6677158B2 JP2016529029A JP2016529029A JP6677158B2 JP 6677158 B2 JP6677158 B2 JP 6677158B2 JP 2016529029 A JP2016529029 A JP 2016529029A JP 2016529029 A JP2016529029 A JP 2016529029A JP 6677158 B2 JP6677158 B2 JP 6677158B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- detailed
- expression
- occurrence
- range
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Description
(発明の目的)
本発明の主たる目的は、文書において、所定の主題に関する表現が存在するときに、所定の主題に関連して記述されるべき所定の事項に関する表現が適切な範囲内に記述されているか否かを判定する文書データ処理装置、文書データ処理方法、及び文書データ処理プログラムを提供することにある。
・行方向又は列方向に複数の項目が並べられた、表又は帳票(例えば米国マイクロソフト社のエクセル(登録商標)によって作成された帳票シート等)
・上記特定の言語と表又は帳票とが混在する文書(例えば、各種製品の取扱い説明書等)
尚、「文書」は、図、画像を更に含んでもよい。
・「詳細化表現」:主題に関連して記述されるべき事項を示す表現
・「状況限定ワード」:「被詳細化表現」と「詳細化表現」とが文書中で共起すべき状況を限定する条件を示す表現
尚、上記の「被詳細化表現」、「詳細化表現」および「状況限定ワード」の各々の「表現」は、例えば、名詞又は名詞の一部である。しかしながら、「表現」は、名詞又は名詞の一部に限定されず、文字(文字列)、記号(記号列)、表、帳票、又は図の何れか、或いは、それらの組み合わせを含んでもよい。
(第1の実施形態)
本実施形態における構成について説明する。
(第2の実施形態)
次に、上述した第1の実施形態を基本とする第2の実施形態について説明する。以下の説明において、第1の実施形態と同等の構成要素には同じ符号を付し、適宜説明を省略する。
(第3の実施形態)
次に、上述した第2の実施形態を基本とする第3の実施形態について説明する。以下の説明において、第2の実施形態と同等の構成要素には同じ符号を付し、適宜説明を省略する。
被詳細化表現C7である「ID」には、被詳細化テーブルT3において、詳細化表現C8である「変更不可」が関連付けられている。
また、単語抽出手段103は、入力文書D3において、「変更不可」に対応する詳細化箇所である「属性」欄C10の2、3、4行目を検出する。
(第4の実施形態)
次に、上述した各実施形態及び変形例に共通する概念を表す第4の実施形態について説明する。
(第5の実施形態)
次に、上述した各実施形態及び変形例に共通する概念を表す第5の実施形態について説明する。
この場合において、図1、図10および図11に示した各手段のうち、少なくとも単語抽出手段103、共起有無チェック手段104、共起範囲設定手段105、詳細化不足検出手段106、共起有無チェック手段114、共起範囲設定手段115、詳細化不足検出手段116、共起範囲設定手段125、詳細化不足検出手段126は、ソフトウェア・プログラムの機能(処理)単位(ソフトウェアモジュール)と捉えることができる。これらの機能(処理)を実現可能なハードウェア環境の一例を、図12を参照して説明する。但し、これらの図面に示した各手段の区分けは、説明の便宜上の構成であり、実装に際しては、様々な構成が想定され得る。
図12は、本発明の実施形態に係る文書データ処理装置10(11、12)を実行可能な情報処理装置1000(コンピュータ)の構成を例示的に説明する図である。
図12に示した情報処理装置1000は、以下の構成がバス3008(通信線)を介して接続された一般的なコンピュータである。
・CPU(Central_Processing_Unit)3001、
・ROM(Read_Only_Memory)3002、
・RAM(Random_Access_Memory)3003、
・記憶装置3004、
・入出力ユーザインタフェース(Interface:以降、「I/F」と称する)3005、
・外部装置や外部ネットワークとの通信I/F3006、
・記録媒体3010が記録する情報を読み取るドライブ装置3009。
そして、上述したハードウェア環境において、上述した実施形態は、以下の手順によって達成される。即ち、図12に示した情報処理装置1000に対して、その実施形態の説明において参照したブロック構成図(図1、図10および図11)、或いはフローチャート(図2)の機能を実現可能なコンピュータ・プログラムを記録した記録媒体3010を、ドライブ装置3009が読み取ることにより供給される。このほか、通信I/F3006を介して当該コンピュータ・プログラムをダウンロードすることも情報処理装置1000が読み取ることに含まれる。その後、そのコンピュータ・プログラムは、当該ハードウェアのCPU3001に読み出されて解釈され、CPU3001において実行される。また、当該装置内に供給されたコンピュータ・プログラムは、読み書き可能な揮発性の記憶メモリ(RAM3003)または記憶装置3004等の不揮発性の記憶デバイスに格納すればよい。
そして、このような場合、係るソフトウェア・プログラム(コンピュータ・プログラム)は、本発明を構成すると捉えることができる。更に、係るソフトウェア・プログラムを格納した、コンピュータ読み取り可能な記憶媒体も、本発明を構成すると捉えることができる。
(付記1)
第1の文書における、所定の主題に関する所定の第1の表現の出現位置と、前記主題に関連して記述されるべき所定の事項に関する所定の第2の表現の出現位置との最短距離の分布に基づいて、前記第1の文書と同じ文書か又は別の文書である第2の文書における、前記第1の表現の出現位置に対して前記第2の表現が出現すべき位置の第1の範囲を決定する共起範囲設定手段と、
前記第2の文書において、前記第2の表現が前記第1の範囲に出現しない場合に、前記主題に関連して記述されるべき前記所定の事項が適切な範囲内に記述されていないことを検出する詳細化不足検出手段とを備える
ことを特徴とする文書データ処理装置。
(付記2)
前記最短距離は、前記第1の表現の出現位置の前後にある、前記第2の表現の出現位置のうち、前記第1の表現の出現位置に最も近い前記第2の表現の出現位置との距離であることを特徴とする付記1に記載の文書データ処理装置。
(付記3)
前記第1の文書における、前記分布を記録する共起有無チェック手段を更に備える
ことを特徴とする付記1又は付記2に記載の文書データ処理装置。
(付記4)
前記第2の文書における、前記第1の表現の出現位置と、前記第2の表現の出現位置とを検出する単語抽出手段と、
前記第1の表現と前記第2の表現とを関連付けて記憶する詳細化表現データベースと
を更に備える
ことを特徴とする付記1乃至付記3のいずれか1項に記載の文書データ処理装置。
(付記5)
前記第1の範囲は、前記分布において出現頻度が最も多い最短距離、又は前記出現頻度が最も多い最短距離が複数存在する場合には前記出現頻度が最も多い最短距離の最大値、最小値、若しくは平均値を含む
ことを特徴とする付記1乃至付記4の何れか1項に記載の文書データ処理装置。
(付記6)
前記詳細化不足検出手段は、前記第2の文書において前記第1の表現を含む複合語が出現する場合、前記複合語に対応する前記第1の範囲のいずれにおいても前記第2の表現が出現しない場合に、前記複合語により限定される前記主題に関連して記述されるべき前記事項が適切な範囲内に記述されていないことを検出する
ことを特徴とする付記1乃至付記5の何れかに記載の文書データ処理装置。
(付記7)
前記分布は、前記第2の表現の出現位置と前記第1の表現の出現位置との距離の情報に加えて、前記第2の表現の出現位置の前記第1の表現の出現位置からみた方向の情報を更に含み、
前記共起範囲設定手段は、前記分布に含まれる距離及び方向の情報に基づいて前記第1の範囲を決定する
ことを特徴とする付記1乃至付記6の何れかに記載の文書データ処理装置。
(付記8)
前記詳細化不足検出手段は、前記第2の文書において、所定の第3の表現と前記第1の表現とが所定の第2の範囲に出現し、且つ前記第2の表現が前記第1の範囲に出現しない場合に前記主題に関連して記述されるべき前記所定の事項が適切な範囲内に記述されていないことを検出する
ことを特徴とする付記1乃至付記7の何れかに記載の文書データ処理装置。
(付記9)
前記共起範囲設定手段は、前記第2の文書において、前記第1の表現の第1の同義語又は前記第2の表現の第2の同義語の出現を、それぞれ前記第1の表現又は前記第2の表現の出現とみなすことを特徴とする付記1乃至付記8の何れかに記載の文書データ処理装置。
(付記10)
前記第1の表現について前記主題に関連して記述されるべき前記所定の事項が適切な範囲内に記述されているか否かをユーザが識別できる態様で、前記各第1の表現を出力する出力手段を更に備える
ことを特徴とする付記1乃至付記9の何れかに記載の文書データ処理装置。
(付記11)
第1の文書における、所定の主題に関する所定の第1の表現の出現位置と、前記主題に関連して記述されるべき所定の事項に関する所定の第2の表現の出現位置との最短距離の分布に基づいて、前記第1の文書と同じ文書か又は別の文書である第2の文書における、前記第1の表現の出現位置に対して前記第2の表現が出現すべき位置の第1の範囲を決定し、
前記第2の文書において、前記第2の表現が前記第1の範囲に出現しない場合に、前記主題に関連して記述されるべき前記所定の事項が適切な範囲内に記述されていないことを検出する
ことを特徴とする文書データ処理方法。
(付記12)
第1の文書における、所定の主題に関する所定の第1の表現の出現位置と、前記主題に関連して記述されるべき所定の事項に関する所定の第2の表現の出現位置との最短距離の分布に基づいて、前記第1の文書と同じ文書か又は別の文書である第2の文書における、前記第1の表現の出現位置に対して前記第2の表現が出現すべき位置の第1の範囲を決定する共起範囲設定処理と、
前記第2の文書において、前記第2の表現が前記第1の範囲に出現しない場合に、前記主題に関連して記述されるべき前記所定の事項が適切な範囲内に記述されていないことを検出する詳細化不足検出処理
とをコンピュータに実行させることを特徴とする文書データ処理プログラム。
以上、上述した実施形態を模範的な例として本発明を説明した。しかしながら、本発明は、上述した実施形態には限定されない。即ち、本発明は、本発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。
この出願は2014年6月18日に出願された日本出願特願2014−124850を基礎とする優先権を主張し、その開示の全てをここに取り込む。
101 文書入力手段
102 詳細化表現データベース
103 単語抽出手段
104 共起有無チェック手段
105 共起範囲設定手段
106 詳細化不足検出手段
107 出力手段
11 文書データ処理装置
114 共起有無チェック手段
115 共起範囲設定手段
116 詳細化不足検出手段
12 文書データ処理装置
13 文書データ分析装置
125 共起範囲設定手段
126 詳細化不足検出手段
Claims (10)
- 所定の主題に関する被詳細化表現と前記主題に関連して記述されるべき事項を示す詳細化表現とを関連付けて記憶する詳細化表現記憶部と、
第1の文書における、前記詳細化表現記憶部から抽出される前記被詳細化表現の出現位置と、前記詳細化表現の出現位置との最短距離の分布に基づいて、前記第1の文書と同じ文書か又は別の文書である第2の文書における、前記被詳細化表現の出現位置に対して前記詳細化表現が出現すべき位置の第1の範囲を決定する共起範囲設定手段と、
前記第2の文書において、前記詳細化表現が前記第1の範囲に出現しない場合に、前記詳細化表現が適切な範囲内に記述されていないことを検出する詳細化不足検出手段とを備える
ことを特徴とする文書データ処理装置。 - 前記最短距離は、前記被詳細化表現の出現位置の前後にある、前記詳細化表現の出現位置のうち、前記被詳細化表現の出現位置に最も近い前記詳細化表現の出現位置との距離であることを特徴とする請求項1に記載の文書データ処理装置。
- 前記第1の文書における、前記分布を記録する共起有無チェック手段
を更に備えることを特徴とする請求項1又は請求項2に記載の文書データ処理装置。 - 前記第2の文書における、前記被詳細化表現の出現位置と、前記詳細化表現の出現位置とを検出する単語抽出手段
を更に備えることを特徴とする請求項1乃至請求項3の何れか1項に記載の文書データ処理装置。 - 前記第1の範囲は、前記分布において出現頻度が最も多い最短距離、又は前記出現頻度が最も多い最短距離が複数存在する場合には前記出現頻度が最も多い最短距離の最大値、最小値、若しくは平均値を含む
ことを特徴とする請求項1乃至請求項4の何れか1項に記載の文書データ処理装置。 - 前記詳細化不足検出手段は、前記第2の文書において前記被詳細化表現を含む複合語が出現する場合、前記複合語に対応する前記第1の範囲のいずれにおいても前記詳細化表現が出現しない場合に、前記複合語により限定される前記詳細化表現が適切な範囲内に記述されていないことを検出する
ことを特徴とする請求項1乃至請求項5の何れか1項に記載の文書データ処理装置。 - 前記分布は、前記詳細化表現の出現位置と前記被詳細化表現の出現位置との距離の情報に加えて、前記第2の表現の出現位置の前記被詳細化表現の出現位置からみた方向の情報を更に含み、
前記共起範囲設定手段は、前記分布に含まれる距離及び方向の情報に基づいて前記第1の範囲を決定する
ことを特徴とする請求項1乃至請求項6の何れか1項に記載の文書データ処理装置。 - 前記詳細化表現記憶部は、前記被詳細化表現と前記詳細化表現とが共起すべき状況を限定する条件を示す状況限定表現を更に格納し、
前記詳細化不足検出手段は、前記第2の文書において、前記詳細化表現記憶部から抽出される前記状況限定表現と前記被詳細化表現とが所定の第2の範囲に出現し、且つ前記詳細化表現が前記第1の範囲に出現しない場合に前記詳細化表現が適切な範囲内に記述されていないことを検出する
ことを特徴とする請求項1乃至請求項7の何れか1項に記載の文書データ処理装置。 - 第1の文書における、所定の主題に関する被詳細化表現と前記主題に関連して記述されるべき事項を示す詳細化表現とを関連付けて記憶する詳細化表現記憶部から抽出される前記被詳細化表現の出現位置と、前記詳細化表現の出現位置との最短距離の分布に基づいて、前記第1の文書と同じ文書か又は別の文書である第2の文書における、前記被詳細化表現の出現位置に対して前記詳細化表現が出現すべき位置の第1の範囲を決定し、
前記第2の文書において、前記詳細化表現が前記第1の範囲に出現しない場合に、前記詳細化表現が適切な範囲内に記述されていないことを検出する
ことを特徴とする文書データ処理方法。 - 第1の文書における、所定の主題に関する被詳細化表現と前記主題に関連して記述されるべき事項を示す詳細化表現とを関連付けて記憶する詳細化表現記憶部から抽出される前記被詳細化表現の出現位置と、前記詳細化表現の出現位置との最短距離の分布に基づいて、前記第1の文書と同じ文書か又は別の文書である第2の文書における、前記被詳細化表現の出現位置に対して前記詳細化表現が出現すべき位置の第1の範囲を決定する共起範囲設定処理と、
前記第2の文書において、前記詳細化表現が前記第1の範囲に出現しない場合に、前記詳細化表現が適切な範囲内に記述されていないことを検出する詳細化不足検出処理
とをコンピュータに実行させることを特徴とする文書データ処理プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014124850 | 2014-06-18 | ||
JP2014124850 | 2014-06-18 | ||
PCT/JP2015/002938 WO2015194140A1 (ja) | 2014-06-18 | 2015-06-11 | 文書データ処理装置、文書データ処理方法、及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2015194140A1 JPWO2015194140A1 (ja) | 2017-04-20 |
JP6677158B2 true JP6677158B2 (ja) | 2020-04-08 |
Family
ID=54935149
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016529029A Active JP6677158B2 (ja) | 2014-06-18 | 2015-06-11 | 文書データ処理装置、文書データ処理方法、及び文書データ処理プログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6677158B2 (ja) |
WO (1) | WO2015194140A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6172694B1 (ja) * | 2016-11-14 | 2017-08-02 | 国立大学法人名古屋大学 | レポートの分類システム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6325764A (ja) * | 1986-07-18 | 1988-02-03 | Matsushita Electric Ind Co Ltd | 文書作成装置 |
JPH1021236A (ja) * | 1996-07-04 | 1998-01-23 | Ricoh Co Ltd | 共起関係知識学習装置 |
JP4672714B2 (ja) * | 2007-10-31 | 2011-04-20 | 株式会社東芝 | 文書データ処理装置 |
-
2015
- 2015-06-11 WO PCT/JP2015/002938 patent/WO2015194140A1/ja active Application Filing
- 2015-06-11 JP JP2016529029A patent/JP6677158B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JPWO2015194140A1 (ja) | 2017-04-20 |
WO2015194140A1 (ja) | 2015-12-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10169337B2 (en) | Converting data into natural language form | |
US10762293B2 (en) | Using parts-of-speech tagging and named entity recognition for spelling correction | |
CN106462604B (zh) | 识别查询意图 | |
JP5106636B2 (ja) | テキストセグメントを有する文書から用語を抽出するためのシステム | |
US7478092B2 (en) | Key term extraction | |
JP2009500754A5 (ja) | ||
JP5564705B2 (ja) | 文構造解析装置、文構造解析方法および文構造解析プログラム | |
JP6677158B2 (ja) | 文書データ処理装置、文書データ処理方法、及び文書データ処理プログラム | |
Duran et al. | Some issues on the normalization of a corpus of products reviews in Portuguese | |
US20150019382A1 (en) | Corpus creation device, corpus creation method and corpus creation program | |
JP6056489B2 (ja) | 翻訳支援プログラム、方法、および装置 | |
JP2010272006A (ja) | 関係抽出装置、関係抽出方法、及びプログラム | |
CN114220113A (zh) | 一种论文质量检测方法、装置和设备 | |
JP7434921B2 (ja) | 情報処理装置及びプログラム | |
KR20100115048A (ko) | 복사 문서 판별 시스템 및 그 방법 | |
JP2014112306A (ja) | 要望文抽出装置、要望内容同定モデル学習装置、方法、及びプログラム | |
JP2014235584A (ja) | 文書分析システム、文書分析方法およびプログラム | |
JP7116940B2 (ja) | オープンデータを効率的に構造化し補正する方法及びプログラム | |
JP6934621B2 (ja) | 方法、装置、及びプログラム | |
Jaf | A simple approach to unify ambiguously encoded Kurdish characters | |
JP6657920B2 (ja) | 文書検証支援装置、文書検証支援方法、及び、文書検証支援プログラム | |
JP2013143021A (ja) | 商品情報抽出ルール生成方法、装置、及びプログラム | |
KR101158331B1 (ko) | 띄어쓰기 일관성 검사 방법 | |
JP2006146705A (ja) | 構造化文書曖昧照合装置及びそのプログラム | |
JP6476638B2 (ja) | 固有用語候補抽出装置、固有用語候補抽出方法、及び固有用語候補抽出プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161215 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180515 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190716 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190912 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200212 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200225 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6677158 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |