JP2015191396A - 詳細化不足検出装置、詳細化不足検出方法及びプログラム - Google Patents

詳細化不足検出装置、詳細化不足検出方法及びプログラム Download PDF

Info

Publication number
JP2015191396A
JP2015191396A JP2014067523A JP2014067523A JP2015191396A JP 2015191396 A JP2015191396 A JP 2015191396A JP 2014067523 A JP2014067523 A JP 2014067523A JP 2014067523 A JP2014067523 A JP 2014067523A JP 2015191396 A JP2015191396 A JP 2015191396A
Authority
JP
Japan
Prior art keywords
expression
document
occurrence
partial
detailed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014067523A
Other languages
English (en)
Inventor
綾子 久野
Ayako Kuno
綾子 久野
英司 平尾
Eiji Hirao
英司 平尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2014067523A priority Critical patent/JP2015191396A/ja
Publication of JP2015191396A publication Critical patent/JP2015191396A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】入力文書を構成する適当な範囲別に、詳細に表現されることが不足している表現(被詳細化表現)を検出する。【解決手段】詳細化不足検出装置11は、入力文書を、特定の表現の位置を基準として1つ以上の部分文書に区切る文書区切り検出部114と、前記文書区切り検出部114によって区切られた前記1つ以上の部分文書のうち、注目する部分文書に、共起範囲として予め特定の表現が登録されている場合には、前記特定の表現を共起範囲とし、登録されていない場合には、前記部分文書を共起範囲とする共起有無チェック部115と、前記注目する部分文書において、予め登録されている第1の表現と、その第1の表現に関連付けされている第2の表現とが前記共起有無チェック部115によって設定された共起範囲に存在するか否かを判断し、前記第2の表現が存在しない場合、前記第1の表現を、詳細化不足を起こしている表現として検出する詳細化不足検出部116と有する。【選択図】 図9

Description

本発明は、例えば、自然言語等によって記述された入力文書の記載表現が十分か否か等を評価する技術分野に関する。
近年、自然言語等によって記述された入力文書を、情報処理装置等を用いて分析することで、その入力文書において記述不足を起こしている箇所を検出するシステムが開発されている。
特許文献1に開示されている文書データ処理装置は、入力手段、記憶手段、検索手段と出力手段とを備える。係る文書データ処理装置は、入力手段によって処理対象である文書データ(入力文書)が受け付けられると、記憶手段に記憶されている文書データ中の予め定められた表現(以下、「適合表現」と称す。)のうち、当該入力文書中に存在する表現と一致する適合表現と関連付けられるメッセージを読み出し、出力手段によって出力する。即ち、特許文献1は、詳細化不足になりがちな表現を適合表現として予め記憶手段に記憶しておくことで、そのような表現を、係る入力文書の中から検出することが可能である。
特許文献2に開示されているデータ処理装置は、入力手段、構文解析手段、記憶手段、判定手段と出力手段を備えている。係るデータ処理装置において、まず、判定手段は、構文解析結果をすることで示される構文木において最も基底となる単一の要素が欠損しているか否かを判定する。そして、係るデータ処理装置は、その判定結果に従って、入力された文書データ中に文法上の“文”として成立するための文節の記述が不足しているか否かを判定する。また、別の手段として、係るデータ処理装置は、記憶手段に保管された係り受けすべき表現の一方が、当該入力された文書データ中に記述されていた場合に、他方の表現が係り受け関係にあるか否かを判定する。
特許文献3は、入力文書内から特定の検索対象を検索する際に、検索対象が大規模な文書集合に対する検索の高速化を図り得る技術が開示されている。即ち、特許文献3に開示された技術は、検索時に入力文書リストと、単語文書マトリックス内の領域ごとに作成された要約情報とを用いて、各領域に含まれる単語の出現頻度の上限を判定する。そして、特許文献3に開示された技術は、出現頻度の上限を単語領域ごとにまとめることによって、検索対象となる領域(即ち、読み込むべき単語の領域)を決定する。
特許文献4は、テキストマイニング辞書テーブル上の項目名に対応する単語が、入力文書に存在する場合であって、その関連情報テーブル上においてその単語に関連付けられる関連情報が、当該入力文書中に存在しない場合には、その入力文書中の記述が不足していると判断する文書データ処理装置を開示する。
特開2008−033887 特許第5095128号 国際公開WO2010/061537 特開2007−310829
しかしながら、特許文献1に開示された文書データ処理装置では、予め定められた表現を無条件に検索するため、実際に記述不足かどうかの判断を行っていない。このため、係る文書データ処理装置によっては、詳細化不足を判定することはできないという課題がある。
特許文献2に開示されたデータ処理装置では、構文上の欠損がある場合か、記憶手段に登録された表現と係り受け関係にあるべき表現が欠損している場合のみに記述不足と判定している。このため、係るデータ処理装置は、ある箇所では詳細化が不足している表現であっても、別の箇所に当該表現の説明が記述されていた際には詳細化不足とは判定できない。即ち、特許文献2に開示された技術によっては、入力文書の全体を考慮して詳細化不足を判定することはできないという課題がある。また、特許文献4も同様の課題がある。
特許文献3は、入力文書を構成する複数の領域ごとに要約情報を求め、その要約情報を基に特徴的な単語が求められるだけである。このため、特許文献3によっては、当該入力文書において、詳細に表現されることが不足している表現を検出することはできない。
そこで、本発明の主たる目的は、入力文書を構成する適当な範囲別に、詳細に表現されることが不足している表現(被詳細化表現)を検出することを主たる目的とする。
上述した目的を達成するために、本発明に係る詳細化不足検出装置は、
入力文書を、特定の表現の位置を基準として1つ以上の部分文書に区切る文書区切り検出手段と、
前記文書区切り検出手段によって区切られた前記1つ以上の部分文書のうち、注目する部分文書に、共起範囲として予め特定の表現が登録されている場合には、前記特定の表現を共起範囲とし、登録されていない場合には、前記部分文書を共起範囲とする共起有無チェック手段と、
前記注目する部分文書において、予め登録されている第1の表現と、その第1の表現に関連付けされている第2の表現とが前記共起有無チェック手段によって設定された共起範囲に存在するか否かを判断し、前記第2の表現が存在しない場合、前記第1の表現を、詳細化不足を起こしている表現として検出する詳細化不足検出手段とを備えることを特徴とする。
また、上述した目的を達成するために、本発明に係る詳細化不足検出方法は、
コンピュータが、
入力文書を、特定の表現の位置を基準として1つ以上の部分文書に区切り、
区切られた前記1つ以上の部分文書のうち、注目する部分文書に、共起範囲として予め登録されている表現が含まれるか否かを判断し、
その共起範囲が登録されていない場合に、該注目する部分文書を共起範囲とし、
予め登録されている第1の表現と、その第1の表現に関連付けされている第2の表現とが前記設定された共起範囲に存在するか否かを判断し、
前記第2の表現が存在しない場合、前記第1の表現を、詳細化不足を起こしている表現として検出することを特徴とする。
更に、同目的は、上記構成を有する詳細化不足検出装置、並びに対応する方法を、コンピュータによって実現するコンピュータ・プログラム、及びそのコンピュータ・プログラムが格納されている、コンピュータ読み取り可能な記憶媒体によっても達成される。
本発明によれば、入力文書を構成する適当な範囲別に、詳細に表現されることが不足している表現(被詳細化表現)を検出することができる。
本発明の第一の実施形態に係る詳細化不足検出装置10の構成を説明するブロック図である。 本発明の第一の実施形態に係る詳細化不足検出装置10が詳細化不足を起こしている表現を検出する処理を表すフローチャートである。 本発明の第一の実施形態に係る詳細化表現データベース102に蓄積されている被詳細化テーブルT1を構成する情報を例示する図である。 本発明の第一の実施形態にかかる被詳細化テーブルT2を構成する情報を例示する図である。 本発明の第一の実施形態における入力文書D1を例示する図である。 本発明の第二の実施形態における詳細化表現データベース102の保存されている被詳細化テーブルT3を構成する情報を例示する図である。 本発明の第二の実施形態に係る部分文書D2を例示する図である。 本発明の第三の実施形態に係る部分文書D3を例示する図である。 本発明の第四の実施形態に係る詳細化不足検出装置11の構成を説明するブロック図である。
以下、本発明を、図面を参照して詳細に説明する。はじめに、以下に説明する各実施形態において、入力文書とは、当該各実施形態において説明する詳細化不足検出装置(10、11)に、検出対象(処理対象)として入力される文書(文書情報、文書データ)である。
そして、当該各実施形態において、文書(入力文書)なる文言は、例えば、以下に挙げる、文字列及び記号の少なくとも何れかによって構成される群を表す。即ち、
・複数の文(単文、複文、重文等)によって構成される所謂自然言語、
・行方向及び列方向に複数の項目が並んで構成される表及び帳票(例えば米国マイクロソフト社のエクセル(登録商標)によって作成された帳票シート等)、
・上記自然言語と帳票とが混在する書面(例えば、各種製品の取扱い説明書等)。
<第一の実施形態>
図1は、本発明の第一の実施形態に係る詳細化不足検出装置10の構成を説明するブロック図である。
詳細化不足検出装置10は、文書入力部101、詳細化表現データベース102、単語抽出部103、文書区切り検出部104、共起有無チェック105、詳細化不足検出部106、出力部107を有する。
文書入力部101は、詳細化不足を検出したい文書(即ち、入力文書)を詳細化不足検出装置10に入力することができる。
詳細化表現データベース102は、図3に例示するように、「被詳細化表現」と、「詳細化表現」と、「状況限定ワード」と、そして「共起範囲」とが関連付けされた被詳細化テーブルT1を記憶することができる。これらの文言の定義が以下の通りである(後述する他の実施形態においても同様)。即ち、
・被詳細化表現:条件や挙動などが詳細に記述されるべき表現、
・詳細化表現:被詳細化表現が詳細化されていたら書かれているべき表現、
・状況限定ワード:被詳細化表現と詳細化表現とが共起すべき状況を限定する表現、
・共起範囲:被詳細化表現と詳細化表現とが共起すべき範囲。
ここで、以下に説明する各実施形態において、上記の被詳細化表現及び詳細化表現のように、名詞(或いは、名詞の一部)として記載する「表現」なる文言は、文字(文字列)、記号(記号列)、及び、図表の少なくとも何れか、或いは、それらの組み合わせを含むこととする。
尚、状況限定ワードは、一つの被詳細化表現と詳細化表現とに対して、複数関連付けてもよい。
単語抽出部103は、詳細化表現データベース102を参照することにより、当該入力文書の中から、同データベースに予め蓄積されている被詳細化表現、詳細化表現及び状況限定ワードと一致する表現を抽出する。そして、単語抽出部103は、抽出された被詳細化表現、詳細化表現及び状況限定ワードの位置(ファイル名、ページ数(ページ番号)、行数、セル番号、文字数などを用いても良い。)を、記憶装置(不図示)に記録する。
単語抽出部103は、被詳細化表現及び/又は詳細化表現として登録されている文字が、当該入力文書内において複合語の一部になっている場合、その複合語自体を被詳細化表現及び/又は詳細化表現として抽出してもよい。例えば、詳細化表現データベースに「ID」という文字が被詳細化表現として登録されていた場合、単語抽出部103は、入力文書の中から、「ID」を含む「ユーザID」、「商品ID」等の複合語を抽出することができる。
文書区切り検出部104は、入力文書の特徴を基に、その入力文書に含まれる区切りの位置を検出する。即ち、文書区切り検出部104は、入力文書において繰り返される特定の表現に基づいて、その入力文書の区切り位置を検出する。
以下の説明では、文書区切り検出部104によって当該入力文書が区切られた場合に、区切られた個々の範囲を、説明の便宜上から「部分文書」と称することとする。
ここで、入力文書の区切り位置を検出する具体的な例を説明する。係る区切り位置の検出方法としては、例えば、入力文書において、特定のキーワード(即ち、上記「特定の表現」)を含む名前が付与されたファイル、シート、章等が含まれる場合に、その特定のキーワードを区切りとして検出する方法等が考えられる。係る特定の表現は、ユーザが事前に詳細化不足検出装置10に登録しても、或いは、外部装置から適当な方法によって入手してもよい。
また、例えば、入力文書において、同じ文字列、同じ記号列、同じ図表、或いは、それらが適宜組み合わせられた同一パターン(即ち、上記の「特定の表現」)が、当該入力文書内において定期的に、或いは、不定期に繰り返し出現している場合を考える。この場合は、係る繰り返し範囲を一単位と見做すことにより、当該入力文書を区切る方法が考えられる。
このような入力文書の一例としては、各種の製品の取り扱い説明書が想定される。このような文書では、読み手が知りたい事項を効率よく見つけることができるように、定型化された見出し表現(例えば、「第_章」、「≪___≫」、「●___:」等、但し“___”内は任意)が採用される。この場合、文書区切り検出部104は、係る定型化された見出し表現を、当該入力文書(この例では当該説明書)の区切りとして検出する。また、他の例としては、帳票作成ソフトウェアを利用して作成された帳票シートにおいて繰り返し出現する表現や、ソフトウェア・プログラムに記述されたコメント文の判別記号等の表現も、区切り検出の基準となり得る。
このような方法によって入力文書を区切る文書区切り検出部104によれば、類似した被詳細化表現の条件や挙動が定型的に詳細化されている入力文書において、区切りを的確に検出(判別)することができる。
また、出力部107は、詳細化不足を起こしている表現として抽出されたか否かを区分できる態様で、被詳細化表現を出力しても良い。例えば、出力部107は、詳細化不足を起こしている表現と抽出された被詳細化表現と詳細化不足を起こしている表現として抽出されなかった被詳細化表現とで、出力の際における色、フォント、線の太さ等を変えて出力しても良い。
更に、文書区切り検出部104は、入力文書中に存在する特定の表現(例えば、被詳細化テーブルT1に登録されている各種表現)の位置が拡散しているほど当該入力文書を区切る間隔を広くし、密集しているほど当該入力文書を区切る間隔を狭くする等の処理構成を採用してもよい。
共起有無チェック部105は、文書区切り検出部104によって区切られた部分文書毎に、共起の有無を判断する。即ち、詳細化表現データベース102に共起範囲が設定されている場合、共起有無チェック部105は、その共起範囲に従って部分文書を構成する文や記号の共起の有無を検出する。この場合、共起の有無とは、当該共起範囲内に被詳細化表現と、それに関連付けされている詳細化表現とが共に存在するか否かを表す。一方、詳細化表現データベース102に共起範囲が登録されていない場合、共起有無チェック部105は、文書区切り検出部104によって検出された区切り(即ち、当該部分文書)を、共起範囲と見做す。
尚、詳細化表現データベース102に状況限定ワードが登録されている場合、共起有無チェック部105は、被詳細化表現と詳細化表現と状況限定ワードとが全て当該共起範囲内に存在している場合に、共起“有り”と、記憶装置(不図示)に記録する。
詳細化不足検出部106は、共起有無チェック部105によって抽出した共起の有無と詳細化不足検出ルールとに基づき、詳細化不足を起こしている表現を検出する。詳細化不足の検出方法は、以下に説明するように、詳細化表現データベース102で共起範囲が登録されている場合と、登録されていない場合とで異なる。
即ち、詳細化データベース102に共起範囲が登録されている場合、詳細化不足検出部106は、当該入力文書のうち、注目する部分文書において、当該共起範囲内において被詳細化表現に関連付けされている詳細化表現の有無を確認し、無い場合は、その被詳細化表現を、詳細化が不足している表現として抽出する。
一方、詳細化データベース102に共起範囲が登録されていない場合、詳細化不足検出部106は、被詳細化表現と詳細化表現との相対的な位置関係を用いて詳細化不足を抽出する。本実施形態では、この詳細化不足を検出する手順を、「詳細化不足検出ルール」とも称することとする。
詳細化不足検出部106は、文書区切り検出部104によって検出された個々の部分文書を処理対象として、詳細化不足を起こしている表現を検出する。
即ち、詳細化不足検出部106は、共起有無チェック部105によって個々の部分文書に対して設定された共起範囲を基準として、その部分文書中に存在する被詳細化表現に対応する詳細化表現の有無を確認する。
より具体的に、詳細化データベース102に共起範囲が登録されている場合、詳細化不足検出部106は、注目する部分文書において共起有無チェック部105によって抽出された範囲を基準として、その部分文書中に存在する被詳細化表現に対応する詳細化表現の有無を確認する。
一方、詳細化データベース102に共起範囲が登録されていない場合、詳細化不足検出部106は、注目する部分文書を共起範囲と同様な一単位と見做して、その部分文書中に存在する被詳細化表現に対応する詳細化表現の有無を確認する。
そして、詳細化不足検出部106は、被詳細化表現に対応する詳細化表現が存在しない場合に、その被詳細化表現を、詳細化不足を起こしている表現(以下、「詳細化不足表現」と称する場合がある)として抽出する。
出力部107は、詳細化不足検出部106によって抽出した詳細化不足表現を、例えば、ユーザが判別可能な態様によって出力する。
図2は、本発明の第一の実施形態に係る詳細化不足検出装置10が詳細化不足表現を検出する処理を示すフローチャートである。
文書入力部101は、詳細化不足表現を検出したい文書(入力文書)を入力する(ステップS101)。
単語抽出部103は、詳細化表現データベース102(詳細化テーブルT1(図3))を参照し、当該入力文書の中から詳細化表現データベース102に登録されている文字列と一致する被詳細化表現、詳細化表現、状況限定ワードを抽出する(ステップS102)。更に、単語抽出部103は、当該入力文書中の各単語の位置情報を、記憶装置(不図示)に記録する(ステップS102)。
文書区切り検出部104は、当該入力文書において繰り返される特定の表現に基づいて、その入力文書の区切り位置を検出する(ステップS103)。
共起有無チェック部105は、詳細化表現データベース102内の被詳細化表現と詳細化表現とに関連付けられている共起範囲(C4)欄に共起範囲が登録されているかどうかを確認する(ステップS104)。
共起範囲(C4)欄に共起範囲が登録されている場合、共起有無チェック部105は、当該入力文書のうち、注目する部分文書を、当該共起範囲(C4)欄に登録されている共起範囲に従って区切る(ステップS105)。一方、共起範囲(C4)欄が登録されていない場合、共起有無チェック部105は、文書区切り検出部104によって検出された区切り(即ち、当該部分文書)を、共起範囲と見做す(ステップS106)。
詳細化不足検出部106は、当該注目する部分文書において、ステップS105またはステップS106において決定した共起範囲に基づいて、上述した手順によって、その部分文書の中から詳細化不足表現が存在するか否かを判断する(ステップS107)。そして、詳細化不足検出部106は、ステップS101において入力された当該入力文書において、詳細化不足の有無を未だ判断していない部分文書の有無を判断する(ステップS108)。全ての部分文書について詳細化不足の有無を判断した場合、詳細化不足検出部106は、処理をステップS109に進める(ステップS108にてNO)。一方、未だ判断していない部分文書が存在する場合、詳細化不足検出部106は、処理をステップS104に戻す(ステップS108にてYES)。そしてこの場合、上述したステップS104以降の処理が、新たな部分文書を対象として開始される。
出力部107は、個々の部分文書について検出した詳細化不足の判定結果を出力する(ステップS109)。ステップS109における出力の態様は、例えば、ユーザが認識可能な一覧表示、外部装置への情報提供等、様々な態様が想定される。また、本実施形態では、一例として、当該入力文書を構成する全ての部分文書について処理を完了してから結果を出力する構成について説明した。しかしながら、本実施形態を例に説明する本発明は係る構成には限定されない。例えば、ある部分文書に関してステップS107において検出結果が得られる度に、その検出結果を出力してもよい。
次に、被詳細化表現と詳細化表現とが共起しているかを判定する処理の具体例について、図3を参照して説明する。
図3は、本発明の第一の実施形態に係る被詳細化テーブルT1に保存されている情報を例示する。被詳細化テーブルT1は、例えば詳細化表現データベース102に蓄積されている。なお、図3は動作例であり、本実施形態は図3には限定されない。以下、図3を用いて、共起範囲が指定されていない場合の詳細化不足検出装置10の動作を説明する。
被詳細化テーブルT1には、被詳細化表現C1、詳細化表現C2、状況限定ワードC3、そして共起範囲C4を登録することができる。この際、状況限定ワードC3と共起範囲C4欄は、本実施形態において必須の要素ではないため、空欄でもよい。
図3に示す例において、被詳細化テーブルT1の1列目の被詳細化表現C1には「検索システム」、詳細化表現C2には「パフォーマンス」、状況限定ワードC3と共起範囲C4は空欄となっている。
文書入力部101は、詳細化不足表現を検出したい文書を入力する(図2のステップS101)。
単語抽出部103は、被詳細化テーブルT1を参照し、保存されている被詳細化表現C1「検索システム」、及び詳細化表現C2「パフォーマンス」なる文言を、当該入力文書中から抽出する(図2のステップS102)。
文書区切り検出部103は、当該入力文書を、上述した如く1つ以上の部分文書に区切る(図2のステップS103)。
共起有無チェック部105は、被詳細化テーブルT1内の共起範囲C4欄に共起範囲として何らかの文字等が指定(登録)されているかを確認する(図2のステップS104)。共起有無チェック部105は、共起範囲C4欄に指定がない(即ち空欄)と判定すると、「検索システム」なる文言の配置を基に、区切り単位を決定する。これにより、共起有無チェック部105は、注目している部分文書を区切り、この区切りを共起範囲であるとみなす(図2のステップS106)。共起有無チェック部105は、共起範囲C4欄に指定がある場合、その指定された文字列等を、共起範囲として採用する(図2のステップS105)。
詳細化不足検出部106は、共起有無チェック部105によって決定された共起範囲内において、「検索システム」なる文言が存在しているにもかかわらず「パフォーマンス」なる文言が存在していない文書を抽出する。詳細化不足検出装置106は、その文書中に存在する被詳細化表現である「パフォーマンス」なる文言を、詳細化不足表現として、記憶装置(不図示)に記録する(図2のステップS107)。
出力部107は、詳細化不足検出部106によって抽出された詳細化不足表現を出力する(図2のステップS109)。
次に図4及び図5を用い、共起範囲C4欄に指定がある場合に詳細化不足検出装置10が行う動作を説明する。
図4は、本発明の第一の実施形態にかかる被詳細化テーブルT2の構成図である。
被詳細化テーブルT2において、被詳細化表現C5は「CSV」、詳細化表現C6は「文字コード」、限定ワードC7は「入力、出力」、共起範囲C8は「1ページ」であり、これらが関連付けされて記憶されている。
図5は、第一の実施形態における入力文書D1である。入力文書D1は、本実施形態で詳細化不足の表現を抽出したい文書である。
文書入力部101は、詳細化不足表現を検出したい文書である入力文書D1を受付ける。
単語抽出部103は、詳細化表現データベース102内にある被詳細化テーブルT2を参照し、入力文書の中から被詳細化テーブルT2に蓄積されている情報と一致する文言である「CSV」、「文字コード」、そして「入力、出力」を抽出する。そして当該文言の入力文書D1における位置情報を、記憶装置(不図示)に記録する。
共起有無チェック部105は、被詳細化テーブルT2内の共起範囲C8の欄に数値などの指定が入力されているかどうかを確認する。共起範囲C8として指定されている「1ページ」という範囲に応じて部分文書を区切る。
共起有無チェック部105は、共起範囲「1ページ」で区切る処理を終えると、共起範囲「1ページ」内において被詳細化表現C5「CSV」と詳細化表現C6「文字コード」とが共起しているかを確認し、結果を記憶装置(不図示)に記録する。
共起有無チェック部105は、共起範囲「1ページ」内において被詳細化表現C5「CSV」という文言に対する詳細化表現C6「文字コード」という文言が共起しているか否かの判定を、注目する部分文書を構成する各文に関してチェックする。部分文書が帳票シート、或いは、帳票シートを含む場合は、各項目に関してチェックすればよい。
詳細化不足検出部106は、共起範囲「1ページ」内において被詳細化表現C5「CSV」と詳細化表現C6「文字コード」が共起していないと判定すると、当該被詳細化表現C5「CSV」は詳細化不足と判定し、その判定結果を、記憶装置(不図示)に記録する。
出力部107は、詳細化不足検出部106による判定結果に基づき、詳細化表現不足と判定された「CSV」なる文言を出力する。
以上、本実施形態において上述した詳細化不足検出装置10によれば、入力文書を構成する適当な範囲別に、詳細に表現されることが不足している表現(被詳細化表現)を検出することができる。その理由は、入力文書に含まれる特定の表現が、当該入力文書内において定期的に、或いは、不定期に繰り返し出現している場合に、その特定の表現に従って部分文書として入力文書を区切ることができるからである。そして、詳細化不足検出装置10によれば、個々の部分文書に対して、共起範囲という区分範囲内において詳細化不足表現を判定しているからである。
即ち、一般に、膨大な文字列や記号列等によって構成される帳票シートやソフトウェア・プログラム等が入力文書である場合に、その入力文書全体に共通する妥当な詳細化不足表現を検出することは難しい。これに対して、本実施形態に係る詳細化不足検出装置10によれば、このような膨大な入力文書であっても、特定の表現に基づいて1つ以上の部分文書に区分し、個々の部分文書において詳細化不足表現が出力される。このため、ユーザは、当該個々の部分文書に関して詳細化不足表現か否かを判断すればよいので、結果として、当該入力文書に対して、正しい判断を容易に行うことができる。
<第二の実施形態>
次に、上述した第一の実施形態を基本とする第二の実施形態について説明する。以下の説明において第一の実施形態と同一の構成については、同一の参照番号を付し、重複する説明は省略する。
図6は、第二の実施形態において詳細化表現データベース102に保存されている被詳細化テーブルT3を例示する図である。被詳細化表現C9には、「ID」、詳細化表現C10には「変更不可」が登録されており、状況限定ワードC11と共起範囲C12は空欄になっている。
図7は、第二の実施形態に係る部分文書D2である。
本実施形態において文書入力部101は、例えば部分文書D2を受け付ける。以下、詳細化不足を抽出する方法は、第一の実施形態と同様である。
単語抽出部103は、被詳細化テーブルT3を参照し、保存されている被詳細化表現C9「ID」、詳細化表現C10「変更不可」なる文言を部分文書D2から抽出する。
共起有無チェック部105は、被詳細化テーブルT3内の共起範囲C12に指定があるか否かを確認し、図6に示す例では、空欄であることから、指定がないと判定する。共起有無チェック部105は、テーブルT3に指定がないことから、「変更不可」なる詳細化表現C10の部分文書中における配置を基に、区切り単位を決定し、当該部分文書を区切ることで共起範囲を決める。
共起範囲の決定の仕方は、部分文書D2には、詳細化表現である「変更不可」が1行目から3行目まで1行毎に分布しているため、文書区切り単位は1行単位であると判定し、これを共起範囲と決定する。
詳細化不足検出部106は、この共起範囲内に「ID」と「変更不可」が共起しているかを判定する。部分文書D2は、1行目から3行目の「ID」は、共起範囲である1行以内に「変更不可」が共起しているが、4行目の「ID」には「変更不可」は共起していない。このため4行目の被詳細化表現「ID」は、詳細化不足として詳細化不足検出部106により抽出される。詳細化不足検出部106は、詳細化不足を判定する際、「ID」だけでなく、「ID」を含む複合語「店舗ID」を詳細化不足として抽出する。
本実施形態によれば、第1の実施形態と同様に、入力文書を構成する適当な範囲別に、詳細に表現されることが不足している表現(被詳細化表現)を検出することができる。特に本実施形態によれば、「変更不可」が1行目から3行目まで繰り替えされていたことで繰り返し単位を1行と設定することができ、共起範囲を決定することができた。そして、被詳細化テーブルT3に登録されている「ID」だけの文字列ではなく、複合語である「店舗ID」を詳細化不足表現として、抽出することができた。
<第三の実施形態>
次に、上述した第一の実施形態と第二の実施形態を基本とする第三の実施形態について説明する。以下の説明において、第一の実施形態及び第二の実施形態と同一の構成については、同一の参照番号を付し、重複する説明は省略する。
本実施形態では、詳細化不足検出部106が被詳細化表現と詳細化表現の位置関係を用いて詳細化不足を抽出する場合について、図8を参照して詳細に説明する。図8は、第三に実施形態に係る部分文書D3を例示する図である。
詳細化表現データベース102に、被詳細化表現として「ID」が登録され、且つ、詳細化表現として「変更不可」が登録されているケース(図6に示す被詳細化表現テーブルT3)について考える。
図8に示す部分文書D3を、上述した被詳細化表現テーブルT3(図6)に基づいて参照すると、被詳細化表現である「ID」を含む複合語として、「ユーザID」、「商品ID」、「店舗ID」、並びに「注文ID」なる各文言がC14列に存在することが判る。これらの複合語に含まれる「ID」なる被詳細化表現には、被詳細化表現テーブルT3(図6)において、詳細化表現として「変更不可」が関連付けされている。そこで、詳細化不足検出部106は、部分文書D3(図8)において、「ID」を含む個々の複合語に注目すると共に、注目した複合語に基づいて、詳細化表現として「変更不可」なる文言がどこに存在するかを探索する。
その結果、詳細化不足検出部106は、部分文書D3(図8)を参照することにより、「ID」を含む何れの複合語にも、詳細化表現である「変更不可」なる文言が一行以内に共起していることを検出する。その際、詳細化不足検出部106は、部分文書D3(図8)において、複合語である「ユーザID」、「商品ID」、「店舗ID」に含まれる「ID」なる被詳細化表現と共起する詳細化表現として、「変更不可」なる文言を、いずれも「ID」なる被詳細化表現が含まれる列C14の左側の列である列C13に検出することができる。これに対して、複合語「注文ID」に含まれる「ID」なる被詳細化表現に関して部分文書D3(図8)を参照した場合、詳細化不足検出部106は、共起する詳細化表現「変更不可」を、列C14より右側の列である列C15において検出することになる。すなわち、被詳細化テーブルT3(図6)において「ID」なる被詳細化表現が含まれる個々の複合語(C14列の各行)を基準として見た詳細化表現「変更不可」の方向(即ち、相対的な位置関係)を比較する。比較した結果、「ユーザID」、「商品ID」、並びに「店舗ID」なる個々の複合語は、詳細化表現と被詳細化表現との相対的な位置関係が同じ(即ち、右方向)である。これに対して、「注文ID」なる複合語の場合、詳細化表現と被詳細化表現との相対的な位置関係が異なる(即ち、左方向)ことが判る。このような場合、詳細化不足検出部106は、検出した相対的な位置関係として、同じ複数の複合語(この例では「ユーザID」、「商品ID」、並びに「店舗ID」)を同一パターンとして分類する。一方、詳細化不足検出部106は、当該同一パターンから外れた複合語「注文ID」については、「ID」なる文言が含まれているものの、被詳細化表現と詳細化表現とのペアも共起していないと見做す。即ち、詳細化不足検出部106は、部分文書D3(図8)を参照した場合、複合語「ユーザID」、「商品ID」、並びに「店舗ID」については被詳細化表現と詳細化表現とのペアが共起すると判定するのに対して、複合語「注文ID」に対しては、詳細化不足であると判定する。
本実施形態によれば、同じ列に被詳細化表現である「変更不可」が記載されていても、繰り返し単位を決めた際の他の「変更不可」と詳細化表現からの向きにより、詳細化不足を抽出することができる。
(第三の実施形態の変形例)
詳細化表現と被詳細化表現との相対的な位置関係に基づいて共起を判定する方法は、上述した「方向」だけには限定されない。例えば、詳細化表現と被詳細化表現との距離に基づいて、或いは上述した方向と距離とを組み合わせた基準に基づいて、共起の有無を判定してもよい。
<第四の実施形態>
次に、上述した各実施形態及び変形例に共通する概念を表す第四の実施形態について説明する。
図9は、本発明の第四の実施形態に係る詳細化不足検出装置11の構成を説明するブロック図である。
詳細化不足検出装置11は、文書区切り検出部114、共起有無チェック部115、詳細化不足検出部116を有している。
まず、文書区切り検出部114は、入力文書に含まれる特定の表現の位置を基準として当該入力文書を1つ以上の部分文書に区切る。次に、共起有無チェック部115は、個々の部分文書中に、共起範囲として予め登録されている特定の文字列が含まれるかどうかを判定する。そして、共起有無チェック部115は、共起範囲が登録されていない場合に、文書区切り検出部114によって区切られた部分文書を共起範囲とみなす。
そして、詳細化不足検出部116は、共起有無チェック部115によってみなされた共起範囲に、特定の表現と特定の文字列に関連付けられている文字列とが存在しているかを判定する。特定の文字列と特定の文字列に関連付けられている文字列が、共起範囲に存在しない場合、当該特定の文字列を詳細化不足として検出する。
以上、説明した詳細化不足検出装置によれば、入力文書を構成する適当な範囲別に、詳細に表現されることが不足している表現(被詳細化表現)を検出することができる。
尚、上述した各実施形態における詳細化不足検出装置は、専用の装置によって実現してもよいが、コンピュータ(情報処理装置)によっても実現可能である。この場合、係るコンピュータは、メモリ(不図示)に格納されたソフトウェア・プログラムをCPU(Central_Processing_Unit)に読み出し、読み出したソフトウェア・プログラムをCPUにおいて実行することにより、実行結果を、例えば、ユーザ・インタフェースに出力する。上述した各実施形態及び変形例の場合、係るソフトウェア・プログラムには、上述したところの、図1に示した詳細化不足検出装置10の各部、或いは、図9に示した詳細化不足検出装置11の各部の機能を実現可能な記述がなされていればよい。但し、詳細化不足検出装置10の場合、文書入力部101及び出力部107には、適宜ハードウェアを含むことも想定される。そして、このような場合、係るソフトウェア・プログラム(コンピュータ・プログラム)は、本発明を構成すると捉えることができる。更に、係るソフトウェア・プログラムを格納した、コンピュータ読み取り可能な記憶媒体も、本発明を構成すると捉えることができる。
以上、本発明を、上述した各実施形態およびその変形例によって例示的に説明した。しかしながら、本発明の技術的範囲は、上述した各実施形態およびその変形例に記載した範囲には限定されない。当業者には、係る実施形態に対して多様な変更又は改良を加えることが可能であることは明らかである。そのような場合、係る変更又は改良を加えた新たな実施形態も、本発明の技術的範囲に含まれ得る。そしてこのことは、特許請求の範囲に記載した事項から明らかである。
10 詳細化不足検出装置
101 文書入力部
102 詳細化表現データベース
103 単語抽出部
104 文書区切り検出部
105 共起有無チェック部
106 詳細化不足検出部
107 出力部
11 詳細化不足検出装置
114 文書区切り検出部
115 共起有無チェック部
116 詳細化不足検出部

Claims (10)

  1. 入力文書を、特定の表現の位置を基準として1つ以上の部分文書に区切る文書区切り検出手段と、
    前記文書区切り検出手段によって区切られた前記1つ以上の部分文書のうち、注目する部分文書に、共起範囲として予め特定の表現が登録されている場合には、前記特定の表現を共起範囲とし、登録されていない場合には、前記部分文書を共起範囲とする共起有無チェック手段と、
    前記注目する部分文書において、予め登録されている第1の表現と、その第1の表現に関連付けされている第2の表現とが前記共起有無チェック手段によって設定された共起範囲に存在するか否かを判断し、前記第2の表現が存在しない場合、前記第1の表現を、詳細化不足を起こしている表現として検出する詳細化不足検出手段とを備える
    ことを特徴とする詳細化不足検出装置。
  2. 前記文書区切り検出手段は、
    前記入力文書において繰り返し出現する前記特定の表現の位置に基づいて、前記入力文書を前記1つ以上の部分文書に区切る
    ことを特徴とする請求項1記載の詳細化不足検出装置。
  3. 前記文書区切り検出手段は、
    前記入力文書中に存在する前記特定の表現の位置の拡散の度合いに従って、前記入力文書を前記1つ以上の部分文書に区切る
    ことを特徴とする請求項1記載の詳細化不足検出装置。
  4. 前記特定の表現は、
    1つ以上の文字と1つ以上の記号との少なくとも何れか、或いは、それらの組み合わせを含む
    ことを特徴とする請求項1乃至請求項3の何れかに記載の詳細化不足検出装置。
  5. 前記詳細化不足検出手段は、前記第1の表現と、前記第2の表現との相対的な位置関係に基づいて、前記詳細化不足を起こしている表現を検出する
    ことを特徴とする請求項1乃至請求項4の何れかに記載の詳細化不足検出装置。
  6. 前記相対的な位置関係は、
    前記第1の表現と、前記第2の表現との方向及び距離の少なくとも何れかである
    ことを特徴とする請求項5記載の詳細化不足検出装置。
  7. 前記特定の表現と、前記第1及び第2の表現との少なくとも何れかを記憶可能な記憶手段を更に備える
    ことを特徴とする請求項1乃至6の何れかに記載の詳細化不足検出装置。
  8. 詳細化不足を起こしている表現として検出されたか否かを区分できる態様で、前記各第1の表現を出力する出力手段と、
    を更に備える請求項1乃至7に記載の詳細化不足検出装置。
  9. コンピュータが、
    入力文書を、特定の表現の位置を基準として1つ以上の部分文書に区切り、
    区切られた前記1つ以上の部分文書のうち、注目する部分文書に、共起範囲として予め登録されている表現が含まれるか否かを判断し、
    その共起範囲が登録されていない場合に、該注目する部分文書を共起範囲とし、
    予め登録されている第1の表現と、その第1の表現に関連付けされている第2の表現とが前記設定された共起範囲に存在するか否かを判断し、
    前記第2の表現が存在しない場合、前記第1の表現を、詳細化不足を起こしている表現として検出することを特徴とする詳細化不足検出方法。
  10. 入力文書を、特定の表現の位置を基準として1つ以上の部分文書に区切る文書区切り検出機能と、
    前記文書区切り検出機能によって区切られた前記1つ以上の部分文書のうち、注目する部分文書に、共起範囲として予め登録されている表現が含まれるか否かを判断し、その共起範囲が登録されていない場合に、該注目する部分文書を共起範囲と設定する共起有無チェック機能と、
    予め登録されている第1の表現と、その第1の表現に関連付けされている第2の表現とが存在するか否かを判断し、前記第2の表現が前記共起有無チェック機能によって設定された共起範囲に存在しない場合、前記第1の表現を、詳細化不足を起こしている表現として検出する詳細化不足検出機能とを、
    コンピュータに実現させることを特徴とするコンピュータ・プログラム。
JP2014067523A 2014-03-28 2014-03-28 詳細化不足検出装置、詳細化不足検出方法及びプログラム Pending JP2015191396A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014067523A JP2015191396A (ja) 2014-03-28 2014-03-28 詳細化不足検出装置、詳細化不足検出方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014067523A JP2015191396A (ja) 2014-03-28 2014-03-28 詳細化不足検出装置、詳細化不足検出方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2015191396A true JP2015191396A (ja) 2015-11-02

Family

ID=54425840

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014067523A Pending JP2015191396A (ja) 2014-03-28 2014-03-28 詳細化不足検出装置、詳細化不足検出方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2015191396A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106557583A (zh) * 2016-11-29 2017-04-05 用友网络科技股份有限公司 档案存储装置和档案存储方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106557583A (zh) * 2016-11-29 2017-04-05 用友网络科技股份有限公司 档案存储装置和档案存储方法
CN106557583B (zh) * 2016-11-29 2020-07-03 用友网络科技股份有限公司 档案存储装置和档案存储方法

Similar Documents

Publication Publication Date Title
KR102256240B1 (ko) 논팩토이드형 질의 응답 시스템 및 방법
US9424524B2 (en) Extracting facts from unstructured text
JP5138046B2 (ja) 検索システム、検索方法およびプログラム
Pillay et al. Authorship attribution of web forum posts
Shoukry et al. A hybrid approach for sentiment classification of Egyptian dialect tweets
US10936806B2 (en) Document processing apparatus, method, and program
Singh et al. OCR++: a robust framework for information extraction from scholarly articles
Kumar et al. IIT-TUDA: System for sentiment analysis in Indian languages using lexical acquisition
Krishnaveni et al. Automatic text summarization by local scoring and ranking for improving coherence
JP4865526B2 (ja) データマイニングシステム、データマイニング方法及びデータ検索システム
US8484229B2 (en) Method and system for identifying traditional arabic poems
US8527516B1 (en) Identifying similar digital text volumes
Xu et al. Using SVM to extract acronyms from text
US11361565B2 (en) Natural language processing (NLP) pipeline for automated attribute extraction
US20140358522A1 (en) Information search apparatus and information search method
Se et al. AMRITA_CEN@ FIRE 2015: Extracting entities for social media texts in Indian languages
US8700997B1 (en) Method and apparatus for spellchecking source code
Sen et al. Screener: a system for extracting education related information from resumes using text based information extraction system
JP2015191396A (ja) 詳細化不足検出装置、詳細化不足検出方法及びプログラム
JP2013191062A (ja) データ解析装置、データ分割装置、データ解析方法、データ分割方法、データ解析プログラム、及びデータ分割プログラム
Liu et al. Extracting biomedical events from pairs of text entities
JP5491446B2 (ja) 話題語獲得装置、方法、及びプログラム
JP6190341B2 (ja) データ生成装置、データ生成方法、及びプログラム
JP6677158B2 (ja) 文書データ処理装置、文書データ処理方法、及び文書データ処理プログラム
JP2006133933A (ja) コンピュータ処理方法