JP2016038596A - 固有用語候補抽出装置、固有用語候補抽出方法、及び固有用語候補抽出プログラム - Google Patents

固有用語候補抽出装置、固有用語候補抽出方法、及び固有用語候補抽出プログラム Download PDF

Info

Publication number
JP2016038596A
JP2016038596A JP2014159224A JP2014159224A JP2016038596A JP 2016038596 A JP2016038596 A JP 2016038596A JP 2014159224 A JP2014159224 A JP 2014159224A JP 2014159224 A JP2014159224 A JP 2014159224A JP 2016038596 A JP2016038596 A JP 2016038596A
Authority
JP
Japan
Prior art keywords
term
word
registered
document
compound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014159224A
Other languages
English (en)
Other versions
JP6476638B2 (ja
Inventor
英司 平尾
Eiji Hirao
英司 平尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2014159224A priority Critical patent/JP6476638B2/ja
Publication of JP2016038596A publication Critical patent/JP2016038596A/ja
Application granted granted Critical
Publication of JP6476638B2 publication Critical patent/JP6476638B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】文書に固有の用語を含む文書において、類似する2つの語が、互いに異なる意味を有する用語であるのか、あるいは一方の語が用語で他方の語が用語の表記揺れの語であるのかを判別する。
【解決手段】概ね1人の著者により記述された部分に分割された文書に含まれる第1の複合語のうち、文書に固有な用語に関する用語集に未登録の第2の複合語を抽出する未登録語抽出手段と、第2の複合語のうち、用語集に登録済みの用語と文字列又は意味が類似する第3の複合語であって、且つ部分における出現分布が登録済みの用語と類似しない第4の複合語を登録済みの用語の表記揺れの語であると判定する表記揺れ判定手段と、第4の複合語を除く第2の複合語を用語集に登録されるべき用語の候補として抽出する用語候補抽出手段と、を備える。
【選択図】 図1

Description

本発明は、文書に固有の用語に関する用語集の作成を支援する固有用語候補抽出装置、固有用語候補抽出方法、及び固有用語候補抽出プログラムに関する。
近年、自然言語で記述された文書を分析して、文書に固有な用語に関する用語集の作成を支援する用語集作成支援装置が開発されている。
用語を抽出する技術の一例が、特許文献1に開示されている。
特許文献1の用語抽出装置は、文書入力部と、形態素解析部と、用語抽出部と、単語辞書と、接続表と、抽出パターンルール格納部とを有する。単語辞書は、単語の表記と品詞とを保持する。接続表は、品詞間の接続の可否を保持する。抽出パターンルール格納部は、形態素解析における誤り結果として頻出するパターンが登録された記述用語パターンルールを保持する。
特許文献1の用語抽出装置は、以下のように動作する。文書入力部は、文書を入力として受け付ける。形態素解析部は、単語辞書に格納された表記と品詞と、接続表に格納された品詞間の接続の可否とを参照して、入力した文書の形態素解析を行う。用語抽出部は、形態素解析部により形態素解析された文書中の単語の全てについて、記述用語パターンルールを参照して、用語抽出を行う。より詳細には、用語抽出部は、記述用語パターンルールと一致する、形態素解析における誤り結果中の特定の単語の並びを抽出し、同一対象文書あるいは同一対象文書集合中で同じ単語の並びが特定数以上出現したものを用語として抽出する。
上記動作の結果、特許文献1の用語抽出装置は、専門的な分野や特定の組織内でのみ使われる略称のような、辞書に未登録であるため、通常の形態素解析では正しく抽出されない用語を正しく抽出する。
用語及び用語を定義する解説データを抽出する技術の一例が、特許文献2に開示されている。特許文献2の用語集生成装置は、係り受け解析手段と、用語データ抽出手段と、概念データ抽出手段と、学習データベースと、修飾データ抽出手段と、解説データ生成手段と、を有する。学習データベースは、連体修飾節が用語を定義する説明文であるときの特徴を示す学習データを予め保持する。
特許文献2の用語集生成装置は、以下のように動作する。用語データ抽出手段は、テキストデータの形態素解析及び構文解析を行なうことにより、テキストデータ中の文節の係り受け情報を生成する。用語データ抽出手段は、テキストデータから、名詞または名詞句である文字列を用語データとして抽出する。概念データ抽出手段は、係り受け情報と、用語データを言い換える特定の言い換え表現とに基づいて、テキストデータから、用語データの上位概念を示す概念データを抽出する。修飾データ抽出手段は、係り受け情報と学習データとに基づいて、用語データに係る連体修飾節が用語データの定義であるか否かを判断し、定義であると判断した連体修飾節を修飾データとして抽出する。 解説データ生成手段は、修飾データに概念データを連結することにより、用語データを定義する解説データを生成する。
上記動作の結果、特許文献2の用語集生成装置は、テキストデータから、用語及び用語を定義する解説データを抽出する。
機能名称を統一された用語に校正する技術の一例が、特許文献3に開示されている。特許文献3の機能名称校正装置は、機能定義格納部と、類似用語登録部と、新規特定用語登録部と、機能名称変換部とを有する。
特許文献3の機能名称校正装置は、以下のように動作する。機能定義格納部は、特定用語及び類似用語を保持する。新規特定用語登録部は、機能名称が特定用語を含まない場合に、機能名称を新たな特定用語として、機能定義格納部に登録する。類似用語登録部は、機能名称が特定用語又は類似用語を一部に含む場合に、機能名称を特定用語又は類似用語に対する類似用語として、機能定義格納部に登録する。機能名称変換部は、類似用語を一部に含む機能名称を、機能定義格納部に格納される対応する類似用語に変換する。
上記動作の結果、特許文献3の機能名称校正装置は、予め作成された、機能名称を含む文書における、特定用語集に登録されていない機能名称を統一された用語に校正する。
用語の同義語を抽出する技術の一例が、特許文献4に開示されている。特許文献4の表記揺れ解析装置は、文書収集手段と、類似文書発見手段と、専門用語抽出手段と、同一表記語抽出手段と、表記違い語対応抽出手段と、対応表構成手段とを有する。
特許文献4の表記揺れ解析装置は、以下のように動作する。類似文書発見手段は、文書収集手段により記憶される電子カルテのうち記述内容が類似する電子カルテを選出する。専門用語抽出手段は、選出した類似する電子カルテの記述に出現する診療に関する単語を抽出する。同一表記語抽出手段は、抽出した各単語のうち、各電子カルテに共通して出現する共通語を特定する。表記違い語対応抽出手段は、抽出された各単語のうちの共通語以外で且つ異なる電子カルテから抽出した単語の組を対象に、各単語の概念が同一であるか(同義語であるか)否かを判定する。対応表構成手段は、同義語と判定された単語の組を対応表形式で出力する。
上記動作の結果、特許文献4の表記揺れ解析装置は、表記が異なるが同義語と推定される単語の組を抽出する。
専門用語を抽出する技術の一例が、特許文献5に開示されている。特許文献5の専門用語抽出システムは、形態素解析部と、複合語抽出部と、専門用語特徴語基抽出部と、専門用語抽出部とを有する。
特許文献5の専門用語抽出システムは、以下のように動作する。形態素解析部は、入力文書の語の単位と品詞とを認定する。複合語抽出部は、文書の形態素解析の結果に含まれる単語列に対して、複合語抽出規則(例:名詞、形容動詞、接辞の連続)に一致する複合語を抽出する。専門用語特徴語基抽出部は、文書における、抽出した複合語を構成する単語である各語基の出現頻度、及び各語基に対する別の語基の平均結合数が、所定の基準に合致する語基を、用語であることを特徴づける用語特徴語基として検出する。専門用語抽出部は、用語特徴語基を主語基に有する複合語を用語として抽出する。所定の基準は、例えば、出現頻度及び平均結合数がそれぞれ所定の閾値以上であることである。
上記動作の結果、特許文献5の専門用語抽出システムは、キーワード入力等の人為的操作を要さず、専門用語を自動的に抽出する。
特開2002−342321号公報 特許第4014130号公報 特開2010−122745号公報 特開2009−128968号公報 特開平03−116374号公報
文書に含まれる用語の2つの候補は、互いに類似する可能性がある。文書に2つの類似する用語の候補が含まれる場合に、一方の候補が他方の候補の表記揺れの語であるか、あるいは一方の候補が他方の候補とは異なる意味を持つ語であるかの判断は困難である。特に、文書が複数の著者の分担により作成された場合には、文書に表記揺れの語が含まれる可能性が高い。
特許文献1の用語抽出装置は、形態素解析における誤り結果中の特定の単語の並びを抽出し、同一対象文書あるいは同一対象文書集合中で同じ単語の並びが特定数以上出現したものを用語として抽出する。ところが、文書に固有の用語には、表記揺れの語が含まれる可能性がある。例えば、「購買リスト」と「購入リスト」の語は、それぞれが異なる意味を持つ文書に固有の用語である可能性があるのと同時に、一方の語が用語で、他方の語が用語の表記揺れの語である可能性がある。そこで、実際には同義な表記揺れなのか、あるいは異なる意味を持つが同義語と紛らわしい語なのかの判断が難しい複数の語が存在する場合に、異なる意味を持つが同義語と紛らわしい語を用語として抽出することが特に重要である。従って、特許文献1の用語抽出装置には、類似する2つの語が、互いに異なる意味を有する用語であるのか、あるいは一方の語が用語で他方の語が用語の表記揺れの語であるのかを判別することができないという問題がある。
特許文献2の用語集生成装置は、名詞または名詞句となる文字列を解析し、連体修飾節に基づいて、文書に固有の用語を抽出する。ところが、文書に固有の用語には、表記揺れの語が含まれる可能性がある。つまり、特許文献2の用語集生成装置は、用語の表記揺れの語を別の用語として誤って抽出する。従って、特許文献2の用語集生成装置には、類似する2つの語が、互いに異なる意味を有する用語であるのか、あるいは一方の語が用語で他方の語が用語の表記揺れの語であるのかを判別することができないという問題がある。
特許文献3の機能名称校正装置は、類似用語を含む機能名称を類似用語に校正する。ところが、文書に固有の用語は、別の意味を持つ別の固有の用語に含まれる可能性がある。例えば、機能名称「入力データ変換」の語は、特定用語「変換」の類似用語である「データ変換」の語を含むが、3つの語のそれぞれが異なる意味を持つ用語である可能性がある。この場合、特許文献3の機能名称校正装置は、用語「入力データ変換」を別の用語「データ変換」に誤って構成する。従って、特許文献3の機能名称校正装置には、類似する2つの語が、互いに異なる意味を有する用語であるのか、あるいは一方の語が用語で他方の語が用語の表記揺れの語であるのかを判別することができないという問題がある。
特許文献4の表記揺れ解析装置は、単語の概念が同一である、別々の電子カルテに含まれる単語の組を同義語の組として抽出する。ところが、文書に固有の用語の組には、一般的な概念が同一又は類似するが、特定の文書においては異なる概念を有する用語の組が含まれる可能性がある。例えば、「購買リスト」と「購入リスト」の語は、一般的な概念が同一又は類似するが、それぞれが異なる概念を持つ用語である可能性がある。この場合、特許文献4の表記揺れ解析装置は、「購買リスト」と「購入リスト」の語の組を同義語の組であると誤って判定する。従って、特許文献4の表記揺れ解析装置には、類似する2つの語が、互いに異なる意味を有する用語であるのか、あるいは一方の語が用語で他方の語が用語の表記揺れの語であるのかを判別することができないという問題がある。
特許文献5の専門用語抽出システムは、別の語基と結合されることが多い、頻出する用語特徴語基を含む複合語を用語として抽出する。ところが、用語特徴語基を含む異なる複合語は、それぞれが専門用語であるとは限らない。例えば、「リスト」は、別の語基と結合されることが多く、また頻出する語基であるものとする。ところが、「購買リスト」の語は専門用語である一方、「購入リスト」の語は「購買リスト」の表記揺れの語である可能性がある。この場合、特許文献5の専門用語抽出システムは、「購買リスト」と「購入リスト」の両方の語を専門用語であると誤って判定する。従って、特許文献5の専門用語抽出システムには、類似する2つの語が、互いに異なる意味を有する用語であるのか、あるいは一方の語が用語で他方の語が用語の表記揺れの語であるのかを判別することができないという問題がある。
(発明の目的)
本発明の目的は、文書に固有の用語を含む文書において、類似する2つの語が、互いに異なる意味を有する用語であるのか、あるいは一方の語が用語で他方の語が用語の表記揺れの語であるのかを判別することができる固有用語候補抽出装置、固有用語候補抽出方法、及び固有用語候補抽出プログラムを提供することにある。
本発明の固有用語候補抽出装置は、概ね1人の著者により記述された部分に分割された文書に含まれる第1の複合語のうち、文書に固有な用語に関する用語集に未登録の第2の複合語を抽出する未登録語抽出手段と、第2の複合語のうち、用語集に登録済みの用語と文字列又は意味が類似する第3の複合語であって、且つ部分における出現分布が登録済みの用語と類似しない第4の複合語を登録済みの用語の表記揺れの語であると判定する表記揺れ判定手段と、第4の複合語を除く第2の複合語を用語集に登録されるべき用語の候補として抽出する用語候補抽出手段とを備えることを特徴とする。
本発明の固有用語候補抽出方法は、概ね1人の著者により記述された部分に分割された文書に含まれる第1の複合語のうち、文書に固有な用語に関する用語集に未登録の第2の複合語を抽出し、第2の複合語のうち、用語集に登録済みの用語と文字列又は意味が類似する第3の複合語であって、且つ部分における出現分布が登録済みの用語と類似しない第4の複合語を登録済みの用語の表記揺れの語であると判定し、第4の複合語を除く第2の複合語を用語集に登録されるべき用語の候補として抽出することを特徴とする。
本発明の固有用語候補抽出プログラムは、固有用語候補抽出装置が備えるコンピュータにおいて、概ね1人の著者により記述された部分に分割された文書に含まれる第1の複合語のうち、文書に固有な用語に関する用語集に未登録の第2の複合語を抽出する未登録語抽出処理と、第2の複合語のうち、用語集に登録済みの用語と文字列又は意味が類似する第3の複合語であって、且つ部分における出現分布が登録済みの用語と類似しない第4の複合語を登録済みの用語の表記揺れの語であると判定する表記揺れ判定処理と、第4の複合語を除く第2の複合語を用語集に登録されるべき用語の候補として抽出する用語候補抽出処理とをコンピュータに実行させることを特徴とする。
本発明によれば、文書に固有の用語を含む文書において、類似する2つの語が、互いに異なる意味を有する用語であるのか、あるいは一方の語が用語で他方の語が用語の表記揺れの語であるのかを判別することができるという効果がある。
本発明の第1の実施形態に係る固有用語候補抽出装置の構成の一例を示すブロック図である。 本発明の第1の実施形態に係る固有用語候補抽出装置の動作を示すフローチャートである。 本発明の第1の実施形態に係る固有用語候補抽出装置の処理の具体例を説明するための図である。 本発明の第2の実施形態に係る固有用語候補抽出装置の構成の一例を示すブロック図である。 本発明の第2の実施形態に係る固有用語候補抽出装置の動作を示すフローチャートである。 本発明の第1の実施形態に係る固有用語候補抽出装置の構成の別の一例を示すブロック図である。 文書において推測された複合語の一例を示す図である。 文書に関する登録済み用語の一例を示す図である。 用語候補語と、類似する登録済み用語の一例を示す図である。 用語候補語と、類似する登録済み用語の出現分布の一例を示す図である。 用語候補語と、類似する登録済み用語の出現分布の類似度の一例を示す図である。 用語集に登録されるべき用語の候補の一例を示す図である。
以下、本発明の実施形態について、図面を参照して詳細に説明する。尚、すべての図面において、同等の構成要素には同じ符号を付し、適宜説明を省略する。
(第1の実施形態)
本実施形態に係る構成について説明する。
図1は、本発明の第1の実施形態に係る固有用語候補抽出装置100の構成の一例を示すブロック図である。
図1を参照すると、本発明の実施形態に係る固有用語候補抽出装置100は、未登録語抽出手段140、表記揺れ判定手段150、用語候補抽出手段160、及び用語集180を含む。
固有用語候補抽出装置100は、自然言語で書かれた仕様書などの、文書又は文書群(以下、単に「文書」と言う。)に固有の用語を含む文書に対して、文書内での複合語の使われ方に基づいて、文書に固有の用語である複合語の候補を抽出する。
固有用語候補抽出装置100の処理対象である複合語の情報は、予め与えられる。複合語は、文書に含まれる各文章において、助詞などを挟まずに直接隣接(以下、単に「隣接」と言う。)する、名詞又は辞書に登録されていない未知語を、全て結合した文字列である。複合語の情報は、複合語が有する文字列の情報と、文書における複合語の出現位置の情報を含む。複合語の出現位置の情報は、文書が任意に分割された際にどの部分に複合語が含まれるかという出現位置を同定可能な情報であればよい。文書は、例えば、1つの文書、ファイル、章、又は節を単位として、部分に分割される。複合語の出現位置の情報は、例えば、複合語が出現する、文書、ファイル、章、節、項、ページ、段落、又は文の識別情報である。なお、複合語の出現位置が文番号で与えられ、文書が節を単位に部分に分割される等、複合語の出現位置と文書の部分とで単位が異なる場合がある。この場合には、複合語の出現位置を文書の部分に対応付ける情報が別途与えられる。また、同一の文字列を有する複合語であっても、文書中の出現位置が異なれば、それぞれの複合語は別の複合語として扱われる。
文書は複数の著者により分担して作成され、各部分の著者が概ね1人であるように文書が部分に分割されるものとする。文書は、個々の文書、ファイル、章、節等を単位に著者毎に分担して作成されることが多い。そのため、分割の単位を分担の単位に近づけることにより、上記の条件は比較的容易に実現される。
用語集180は、文書において固有の意味を有し、その定義が関係者により共有されるべき用語の一部を予め保持するデータベース(以下、「用語データベース」とも言う。)である。以下、用語集180により保持された用語を「登録済み用語」と言う。登録済み用語は、例えば利用者により、用語集180に予め登録される。
未登録語抽出手段140は、与えられた複合語のうち、用語集180に登録されていない複合語を用語の候補(以下、「用語候補語」と言う。)として抽出する。
表記揺れ判定手段150は、登録済み用語と文字列又は意味に関して「類似」する用語候補語であって、且つ文書中の用語と用語候補語との「出現分布」が「類似」する用語候補語を用語の表記揺れの語であると判定する。
「表記揺れ」とは、共通の意味を有するが、異なる文字列を有する複数の複合語間の関係である。登録済み用語と「表記揺れ」の関係にある用語候補語は、登録済み用語の「表記揺れの語」と言う。以下では、表記揺れは、文書が、複数の著者により分担されて作成される場合に発生するものとみなす。つまり、「表記揺れ」の関係にある複合語のそれぞれは、主に1人の著者により記述されるものとみなす。ただし、1人の著者が複数の時期に文書を作成する場合には、時期毎に著者が異なるものとみなしてもよい。また、著者は、添削者、編集者、又は監修者を含んでもよい。
文字列に関する「類似」は、例えば、文字列に関する「類似度」が所定の閾値よりも大きいか否かに基づいて判定される。文字列に関する「類似度」は、2つの文字列間の類似の程度の指標である。文字列に関する「類似度」は、例えば、2つの文字列間の編集距離と負の相関を持つ指標(例えば、編集距離の逆数)である。なお、編集距離とは、一方の文字列を他方の文字列に変換するのに必要な、文字の置換、文字の挿入、又は文字の削除の各操作の最小回数である。
意味に関する「類似」は、例えば、意味に関する「類似度」が所定の閾値よりも大きいか否かに基づいて判定される。意味に関する「類似度」は、2つの単語または複合語間の意味上の類似の程度の指標である。2つの単語間の意味に関する「類似度」は、例えば、2つの単語間の「概念的な距離」と負の相関を持つ指標(例えば、「概念的な距離」の逆数)である。単語間の「概念的な距離」は、例えば、階層的なシソーラスを示す木構造における、2つの単語間を結ぶ枝の数である。2つの複合語間の意味に関する「類似度」は、例えば、2つの複合語間の「概念的な距離」と負の相関を持つ指標(例えば、「概念的な距離」の逆数)である。複合語間の「概念的な距離」は、例えば、一方の複合語に含まれる各単語との「概念的な距離」が最も近い、他方の複合語に含まれる単語との「概念的な距離」の総和である。
文書中の語の「出現分布」は、文書が分割された各部分毎の、語の出現頻度である。語の出現頻度は、例えば、文書の部分毎の語の出現頻度を列挙した「出現頻度ベクトル」により特定される。文書中の、用語候補語及び用語の「出現分布」は、複合語の情報に含まれる、複合語の出現位置の情報に基づいて算出される。
出現分布間の「類似度」は、例えば、2つの出現頻度ベクトルのコサイン類似度、相関係数、ジャッカード係数、若しくはダイス係数等の類似度指標、又は2つの出現頻度ベクトルの差の大きさなどの距離指標と、負の相関を持つ指標(例えば、逆数)などである。なお、類似度は、各出現頻度ベクトルの大きさが一定になるように正規化されてもよい。出現頻度ベクトルの大きさは、例えば、ユークリッド距離である。
多くの場合、表記揺れの関係にある各複合語は、1人の著者により記述される。そのため、著者の異なる部分においては、表記揺れの関係にある複数の複合語は共起しにくい。表記揺れ判定手段150による表記揺れの判定は、用語と用語の表記揺れの語との出現分布が大きく異なることを利用する。従って、文書が、各部分が概ね1人の著者により記述された部分に分割された場合に、表記揺れの判定精度は最適化される。
出現分布間の類似度は、出現分布の特徴量間の類似度であってもよい。出現分布の特徴量は、例えば、文書中における出現分布の広がり(例えば、ある複合語が最初に出現した箇所から最後に出現した箇所までの文字数)である。この場合、出現分布の特徴量間の類似度は、例えば、用語と用語候補語での出現分布の広がりの差の大きさの逆数である。この出現分布間の類似度は、表記揺れの判定に利用可能である。その理由は、用語が文書中の広範囲で使用されやすいのに対し、表記揺れの語は特定の著者が担当した部分に記述されるため、表記揺れの語の出現分布の広がりが用語の出現分布の広がりに比べて小さくなりやすいからである。
表記揺れの判定結果は、用語候補語が表記揺れの語であるか否かの判定結果である。あるいは、表記揺れの判定結果は、表記揺れの語である可能性を示す指標(以下、「表記揺れ語可能性度」と言う。)であってもよい。表記揺れの判定結果が表記揺れ語可能性度である場合には、表記揺れ語可能性度を用語候補語が表記揺れの語であるか否かの判定結果に対応付ける基準は、別途与えられる。例えば、表記揺れ語可能性度が、別途与えられた閾値以上である場合に、用語候補語は表記揺れの語であると判定される。
用語候補抽出手段160は、表記揺れ判定手段150により表記揺れの語と判定されなかった用語候補語を、用語集に登録されるべき用語の候補であると判定して、候補を抽出する。
表記揺れの判定結果が表記揺れの語であるか否かである場合には、用語候補抽出手段160は、表記揺れの語ではない用語候補語を用語集に登録されるべき用語の候補であると判定する。一方、表記揺れの推定結果が、表記揺れ語可能性度である場合には、用語候補抽出手段160は、別途定義された閾値と表記揺れ語可能性度との比較結果に基づいて、用語候補語が用語集に登録されるべき用語の候補であるか否かを判定する。なお、用語集に登録されるべき用語の候補であるか否かの判定結果は、用語集に登録されるべき用語の候補である可能性を示す指標(以下、「用語可能性度」と言う。)を更に含んでもよい。
なお、用語候補抽出手段160は、用語集に登録されるべき用語の候補であると判定した用語の候補を、用語集180に登録済み用語として追加してもよい。あるいは、用語候補抽出手段160は、用語集に登録されるべき用語の候補であると判定した用語の候補を利用者に提示し、利用者により用語集に登録されるべき用語として選択された用語を用語集180に登録済み用語として追加してもよい。
次に、本実施形態に係る固有用語候補抽出装置100の動作について説明する。
図2は、本発明の第1の実施形態に係る固有用語候補抽出装置100の動作を示すフローチャートである。なお、図2に示すフローチャート及び以下の説明は一例であり、適宜求める処理に応じて、処理順等を入れ替えたり、処理を戻したり、又は処理を繰り返したりしてもよい。
未登録語抽出手段140は、与えられた複合語のうち、用語集180に登録されていない複合語を用語候補語として抽出する(ステップS4)。
表記揺れ判定手段150は、未登録語抽出手段140により抽出された用語候補語のうち、用語集180に登録済みの用語と文字列又は意味が類似する用語候補語であって、且つ登録済みの用語及び用語候補語の出現分布と出現分布が類似しない用語候補語を、登録済みの用語の表記揺れの語であると判定する(ステップS5)。
用語候補抽出手段160は、未登録語抽出手段140により抽出された用語候補語のうち、表記揺れ判定手段150により表記揺れの語と判定された語を除く用語候補語を、用語集に登録されるべき用語の候補であると判定し、候補を抽出する(ステップS6)。
なお、固有用語候補抽出装置100は、上記の処理の全体を繰り返し実行してもよい。
次に、本発明の第1の実施形態に係る固有用語候補抽出装置100の処理の具体例について説明する。
図3は、本発明の第1の実施形態に係る固有用語候補抽出装置100の処理の具体例を説明するための図である。
まず、本具体例の説明における前提について説明する。
固有用語候補抽出装置100の処理対象である文書Dは、情報システム構築に関する提案書や仕様書などの、複数の解釈が発生しないように用語集を用意すべき文書である。
文書番号di(iは自然数を示す。)は、文書Dの各部分(例えば、各文書、各ファイル、各章、各節)に対して与えられた番号(例えば、作成日時順に与えられた通し番号)である。本具体例では、予め、文書Dは2つの部分に分割され、それぞれに文書番号d1、d2が与えられる。
複合語Cは、文書Dに含まれる複合語である。複数の複合語のそれぞれを区別する際には、各複合語を「複合語Ci」(iは自然数を示す。)で表す。
登録済み用語Tは、文書Dに固有な用語のうち、固有用語候補抽出装置100による処理開始時点において既に用語集に登録された用語である。複数の登録済み用語のそれぞれを区別する際には、各登録済み用語を「登録済み用語Ti」(iは自然数を示す。)で表す。
用語候補語Pは、複合語Cのうち、固有用語候補抽出装置100による処理途中における中間的な用語候補語である。複数の用語候補語のそれぞれを区別する際には、各用語候補語を「用語候補語Pi」(iは自然数を示す。)で表す。
用語の候補Taは、固有用語候補抽出装置100による最終的な処理結果である、用語集に登録されるべき用語の候補である。複数の用語の候補のそれぞれを区別する際には、各用語の候補を「用語の候補Tai」(iは自然数を示す)で表す。
以上が、本具体例の説明における前提についての説明である。
複合語“入荷金額”、“購買リスト”、“ドライバー管理票”、“システム安全性”が文書Dにおける複合語Cとして与えられる(図3(a))。また、ここでは図示しないが、文書Dにおける各複合語の出現位置の情報が別途、与えられる。
用語集180は、登録済み用語Tを予め保持する。用語集180は、例えば、文書Dに関する登録済み用語Tとして、“購入リスト”、“ドライバー管理簿”、“システム安全性”を予め保持する(図3(b))。
未登録語抽出手段140は、用語集180に登録されていない複合語Cを用語候補語Pとして抽出する。複合語“入荷金額”、“購買リスト”、“ドライバー管理票”は、登録済み用語Tに含まれないので、用語候補語である。一方、複合語“システム安全性”は、登録済み用語Tに含まれるので、用語候補語ではない。
表記揺れ判定手段150は、まず、登録済み用語Tと文字列又は意味が類似する用語候補語Pを、表記揺れの可能性がある語として抽出する。なお、本具体例では、用語候補語Piと登録済み用語Tiとが類似する文字列を有すると判定されるための基準は、登録済み用語Tiと用語候補語Piとの編集距離が1以下であることである。つまり、表記揺れ判定手段150は、表記揺れの可能性がある用語候補語Piとして、“購買リスト”、“ドライバー管理票”を抽出する(図3(c)の第1列)。なお、用語候補語Pのそれぞれに類似する登録済み用語Tiは、“購入リスト”、“ドライバー管理簿”である(図3(d)の第1列)。
表記揺れ判定手段150は、次に、表記揺れの可能性がある用語候補語Piと用語候補語Piに類似する登録済み用語Tiとの組のそれぞれについて、文書Dに含まれる各部分を示す文書番号djのそれぞれにおける、用語候補語Piの出現頻度Xij、及び用語候補語Piに類似する登録済み用語Tiの出現頻度Yijを集計する。表記揺れ判定手段150は、出現頻度Xij及び出現頻度Yijを、文書Dにおける各複合語の出現位置の情報に基づいて集計する。本具体例では、集計結果は以下である。用語候補語“購買リスト”は、文書番号d1を有する部分において2回出現し、文書番号d2を有する部分において8回出現する(図3(c)の第2行)。登録済み用語“購入リスト”は、文書番号d1を有する部分において3回出現し、文書番号d2を有する部分において2回出現する(図3(d)の第2行)。用語候補語“ドライバー管理票”は、文書番号d1を有する部分において3回出現し、文書番号d2を有する部分において出現しない(図3(c)の第3行)。登録済み用語“ドライバー管理簿”は、文書番号d1を有する部分において出現せず、文書番号d2を有する部分において4回出現する(図3(d)の第3行)。
表記揺れ判定手段150は、続いて、用語候補語Piの出現分布Xiと用語候補語Piに類似する登録済み用語Tiの出現分布Yiとの類似度を算出する。具体的には、固有用語候補抽出装置100は、例えば、用語候補語Pi毎、文書番号dj毎の出現頻度Xijの並びを出現頻度ベクトル[Xi]とみなす。更に、固有用語候補抽出装置100は、類似する登録済み用語Ti毎、文書番号dj毎の出現頻度Yijの並びを出現頻度ベクトル[Yi]とみなす。そして、固有用語候補抽出装置100は、出現頻度ベクトル[Xi]と出現頻度ベクトル[Yi]の類似度を算出する。本具体例では、出現頻度ベクトル間の類似度はコサイン類似度である。
表記揺れ判定手段150は、続いて、出現分布間の類似度の値が所定の閾値未満である用語候補語Piを表記揺れの語であると判定する。本具体例では、閾値は“0.5”である。
用語候補語“購買リスト”の出現頻度ベクトルと、類似する登録済み用語“購入リスト”の出現頻度ベクトルとの間のコサイン類似度は0.74である(図3(e)の第2行第3列)。ここで、(2×3+8×2)/sqrt((2×2+8×8)(3×3+2×2))≒0.74である。なお、sqrt(x)は実数xの平方根を表す。類似度“0.74”は、閾値“0.5”よりも大きいので、用語候補語“購買リスト”は、類似する登録済み用語“購入リスト”の表記揺れの語ではないと判定される(図3(e)の第2行第4列)。
また、用語候補語“ドライバー管理票”の出現頻度ベクトルと、類似する登録済み用語“ドライバー管理簿”の出現頻度ベクトルとの間のコサイン類似度は0である(図3(e)の第3行第3列)。ここで、(3×0+0×4)/sqrt((3×3+0×0)(0×0+4×4))=0である。類似度“0”は、閾値“0.5”よりも小さいので、用語候補語“ドライバー管理票”は、類似する登録済み用語“ドライバー管理簿”の表記揺れの語であると判定される(図3(e)の第3行第4列)。
文書の部分毎の複合語の出現分布の類似度に基づいて、一方の複合語が他方の複合語の表記揺れの語であるか否かの推定が可能である理由について説明する。
まず、推定対象である2つの複合語は、文字列及び意味が類似しないならば表記揺れである可能性が低いので、表記揺れではないと推定できる。そこで、以下では、2つの複合語の文字列又は意味が類似する場合について述べる。
(1)2つの複合語が表記揺れである場合
同一の文書に含まれる部分であっても、著者が異なる部分では、同一の意味を意図して表記の揺れのうちの1つの複合語が使用される可能性が高い。そのため、2つの複合語の出現分布の類似度は低い。
(2)2つの複合語が表記揺れではない場合
この場合には、2つの複合語のそれぞれは、文書に固有の用語である。
(a)2つの固有の用語の出現分布の類似度が高い場合
2つの固有の用語は文書の同じ部分で共起しやすい固有の用語の対である。2つの固有の用語の文字列又は意味が類似するということは、関連性が近い内容に言及している可能性が高いので、2つの固有の用語は文書の同じ部分で共起しやすい。つまり、この場合は生起しやすい。
(b)2つの固有の用語の出現分布の類似度が低い場合
2つの固有の用語は文書の同じ部分で共起しにくい固有の用語の対である。ところが、2つの固有の用語の文字列又は意味が類似するということは、関連性が近い内容に言及している可能性が高いので、2つの固有の用語は文書の同じ部分で共起しやすいことが期待される。つまり、この場合は生起しにくい。
生起しにくい(2)の(b)の場合を無視することが可能ならば、文字列又は意味が類似する2つの複合語について、出現分布の類似度が低いならば表記揺れであり、出現分布の類似度が高いならば表記揺れではないと推定可能である。
例えば、図3(c)の用語候補語“購買リスト”及び図3(d)の類似する登録済み用語“購入リスト”は文書番号d1およびd2において出現している。この場合には、各文書番号の部分の著者が概ね1人であるように文書が部分に分割されているのであるから、文書番号d1とd2とで著者が異なる可能性は高く、用語候補語“購買リスト”は類似する登録済み用語“購入リスト”の表記揺れである可能性は低い。
また、例えば、図3(c)の用語候補語“ドライバー管理票”は文書番号d1のみにおいて出現するのに対し、図3(d)の類似する登録済み用語“ドライバー管理簿”は文書番号d2のみにおいて出現している。この場合には、文書番号d1と文書番号d2とでは、著者が異なる可能性は高く、用語候補語“ドライバー管理票”は類似する登録済み用語“ドライバー管理簿”の表記揺れである可能性は高い。
用語候補抽出手段160は、表記揺れと判定された用語候補語“ドライバー管理票”を除いた用語候補語を、用語集に登録されるべき用語の候補であると判定する。すなわち、用語候補抽出手段160は、用語候補語“入力金額”、“購買リスト”を、用語集に登録されるべき用語の候補であると判定する(図3(e)の第5列)。
以上説明したように、本実施形態の固有用語候補抽出装置100は、用語集に未登録の複合語のうち、用語集に登録済みの用語と文字列又は意味が類似する複合語であって、且つ登録済みの用語と出現分布が類似しない複合語を、登録済み用語の表記揺れの語であると判定する。固有用語候補抽出装置100は、表記揺れの語を除いた、用語集に未登録の複合語を、用語集に登録されるべき用語の候補として抽出する。従って、本実施形態の固有用語候補抽出装置100には、文書において類似する2つの語が、互いに異なる意味を有する用語であるのか、あるいは一方の語が用語で他方の語が用語の表記揺れの語であるのかを判別することができるという効果がある。
(第2の実施形態)
次に、上述した本発明の第1の実施形態を基本とする、本発明の第2の実施形態について、図面を参照して詳細に説明する。以下の説明において、第1の実施形態と同等の構成要素には同じ符号を付し、適宜説明を省略する。
本実施形態に係る構成について説明する。
図4は、本発明の第2の実施形態に係る固有用語候補抽出装置105の構成の一例を示すブロック図である。
本発明の実施形態に係る固有用語候補抽出装置105は、文書入力手段110、文書解析手段120、複合語抽出手段130、未登録語抽出手段140、表記揺れ判定手段150、用語候補抽出手段160、出力手段170、及び用語集180を含む。
固有用語候補抽出装置105は、自然言語で書かれた仕様書などの、文書に固有の用語を含む文書に対して、文書内での複合語の使われ方に基づいて、文書に固有の用語である複合語の候補を抽出する。固有用語候補抽出装置105は、更に、抽出結果に基づいて、用語集に登録されるべき用語の候補を出力し、ユーザに提示する。
電子機器で固有用語候補抽出装置105を構成する場合、固有用語候補抽出装置106は、プログラム制御により動作するコンピュータで実現可能である。図示はしないが、この種のコンピュータは、周知のように、データを入力する入力装置と、データ処理装置と、データ処理装置による処理結果を出力する出力装置と、種々のデータベースとして働く補助記憶装置とを有する。そして、データ処理装置は、プログラムを記憶し、且つデータを一時的に記憶するメモリと、メモリに記憶されたプログラムに従ってメモリに記憶されたデータを処理する中央処理装置(CPU)とを有する。
この場合、データ処理装置は、文書入力手段110の一部、文書解析手段120、複合語抽出手段130、未登録語抽出手段140、表記揺れ判定手段150、用語候補抽出手段160、用語集180の一部、及び出力手段170の一部として動作する。また、入力装置は文書入力手段110の一部として動作し、補助記憶装置は用語集180の一部として動作し、出力装置は出力手段170の一部として動作する。
文書入力手段110は、文書に固有の用語を含む可能性が有り、用語集への登録が必要な用語が抽出されるべき文書を入力する。
文書解析手段120は、文書に含まれる各文章に対して、形態素解析を実行することにより、各文章において使用される全単語の単語情報を抽出する。なお、単語は、名詞、動詞、形容詞など単独で意味をなす自立語に加えて、助詞などの付属語も含む。また、同一の文字列を有する単語であっても、文書中の出現位置が異なれば、それぞれの単語について単語情報の抽出が行われる。また、単語情報は、少なくとも単語が有する文字列と、単語が属する品詞(未知語を含む)と、単語の文書内での出現位置の情報を含む。単語の文書内での出現位置の情報は、単語の出現位置が同定可能な情報であればよい。単語の文書内での出現位置の情報は、例えば、単語が存在する、文書、ファイル、章、節、項、ページ、段落、又は文の識別情報である。
なお、固有用語候補抽出装置105は、用語集180の代わりに用語データベースを含んでもよい。用語データベースは、用語集180に登録された用語がコピーされた用語を保持するデータベースである。
出力手段170は、関係者に用語集への登録を促すために、用語候補抽出手段160により抽出された用語集に登録されるべき用語の候補を出力する。この際、出力手段170は、用語の候補の文書中での出現位置や、用語集に登録されるべき用語の候補と判定した根拠である文書中の用語の候補の出現例などを合わせて出力してもよい。出力形態は、例えば、用語集に登録されるべき用語の候補の表である。あるいは、出力形態は、入力文書において、用語集に登録されるべき用語の候補が色分け、太字による強調、又は文字の拡大などにより示された文書全体であってもよい。「用語可能性度」が出力される場合には、出力形態は、入力文書において、用語集に登録されるべき用語の候補が、用語可能性度に従って色分け、太字による強調、又は単語の文字の大きさなどを変化させるなどにより示された文書全体であってもよい。また、出力手段170は、用語の候補毎の用語可能性度を、文書の品質を表す指標として出力してもよい。また、出力手段170は、利用者により選択された出力形態により出力してもよい。
また、出力手段170は、用語候補抽出手段160により判定された用語集に登録されるべき用語の候補を用語集180に登録済み用語として追加してもよい。あるいは、出力手段170は、利用者により用語集に登録されるべき用語として選択された用語の候補を用語集180に登録済み用語として追加してもよい。
次に、本実施形態に係る固有用語候補抽出装置105の動作について説明する。
図5は、本発明の第2の実施形態に係る固有用語候補抽出装置105の動作を示すフローチャートである。なお、図5に示すフローチャート及び以下の説明は一例であり、適宜求める処理に応じて、処理順等を入れ替えたり、処理を戻したり、又は処理を繰り返したりしてもよい。
文書入力手段110は、文書に固有の用語を含む可能性が有り、用語集への登録が必要な用語が分析されるべき文書を入力する(ステップA1)。
文書解析手段120は、文書に含まれる各文章に対して形態素解析を実行することにより、各文章において使用される全単語の単語情報を出力する(ステップA2)。
複合語抽出手段130は、文書解析手段120により出力された全単語の単語情報に基づいて、隣接する名詞および未知語を全て結合した文字列を複合語として抽出する(ステップA3)。
本実施形態におけるステップA4、A5、A6は、第1の実施形態におけるステップA4、A5、A6と同じである。
出力手段170は、関係者に用語集への登録を促すために、用語候補抽出手段160により判定された用語集に登録されるべき用語の候補を出力する(ステップA7)。
次に、本発明の第2の実施形態に係る固有用語候補抽出装置を含むシステムについて説明する。
図6は、本発明の第2の実施形態に係る固有用語候補抽出装置の構成の別の一例を示すブロック図である。
固有用語候補抽出装置106を含む固有用語候補抽出システム300は、以下のような構成であってもよい。
固有用語候補抽出システム300は、PC端末190と、サーバ200とを含む。
PC端末190は、固有用語候補抽出装置106、入力装置191、及び出力装置192を含む。
固有用語候補抽出装置106の構成は、用語集180、文書入力手段110のハードウェアにより実現される機能、及び出力手段170のハードウェアにより実現される機能を含まない点を除いて、固有用語候補抽出装置105の構成と同じである。固有用語候補抽出装置106は、入力装置191を介して、文書Dの入力を行う。固有用語候補抽出装置106は、出力装置192を介して、用語の候補Taを利用者に提示する。
サーバ200は、通信ネットワークを介して固有用語候補抽出装置106を含むPC端末190に接続される。サーバ200は、用語集180を含む。サーバ200は、固有用語候補抽出装置106からの複合語に関する問い合わせに対して、問い合わせ対象の複合語と同じ用語が登録されているか否か、および複合語と類似する文字列又は意味を有する用語が登録されているか否かとその用語を応答する。 入力装置191は、文書入力手段110の一部として動作する。
出力装置192は、出力手段170の一部として動作する。
次に、本発明の第2の実施形態に係る固有用語候補抽出装置106の処理の具体例について説明する。
固有用語候補抽出装置106は、以下のように動作する。
文書入力手段110は、入力装置191から、文書Dを入力する。
文書解析手段120は、文書Dに含まれる文章毎に形態素解析を実行することにより、文書Dに含まれる全ての単語Wiについて、単語が有する文字列及び単語が属する品詞の情報を単語情報として出力する。さらに、文書解析手段120は、各単語Wiが含まれる文書が分割された部分の文書番号djの情報を単語Wiの単語情報に追加する。
さらに複合語抽出手段130は、文書Dに含まれる全ての単語Wの並びから、隣接する名詞および未知語を全て結合した文字列を複合語Cとして抽出する。
図7は、文書Dに対して生成された複合語Cの一例を示す図である。複合語抽出手段130は、例えば、文書Dに含まれる「期間内で収集された入荷金額を合計した値を入力データとして登録する。」という文に対して、複合語「入荷金額」と「入力データ」を複合語として抽出する。複合語抽出手段130は、同様に、例えば、文書Dにおける複合語Cとして、“入荷個数”、“集積地区”、“ドライバー管理票”、“データ一括選択”、“購買リスト”、“入力データ形式”、“緊急通報条件”、“システム安全性”、“連絡用情報”などの複合語を抽出する。
サーバ200は、文書Dにおいて固有の意味を有する、用語集に登録された登録済み用語Tを保持する。登録済み用語Tは、例えば利用者により、登録済み用語Tの定義と共に用語集180に登録される。
図8は、文書Dに関する登録済み用語Tの一例を示す図である。用語集180は、文書Dに関する登録済み用語Tとして、“集積地区”、“入力データ形式”、“購入リスト”、“ドライバー管理票”、“集荷地区”、“入荷個数”、“緊急通知条件”、“システム安全性”、“システム完全性”、“連絡情報”などの用語を予め保持する。
サーバ200は、固有用語候補抽出装置105からの複合語Cに関する問い合わせに対して、複合語Cと同じ文字列を有する登録済み用語Tが用語集180に登録されているか否かを応答する。
未登録語抽出手段140は、複合語Cが、用語集180に登録されているか否か、および複合語Cと類似する文字列又は意味を有する用語Tが登録されているか否かとその用語の情報をサーバ200に問い合わせる。
未登録語抽出手段140は、用語集180に定義済み用語Tとして登録されていない複合語Cを用語候補語Pとして抽出する。例えば、複合語“入荷金額”、“入荷個数”、“入力データ”、“ドライバー管理票”、“データ一括選択”、“購買リスト”、“緊急通報条件”、“連絡用情報”は登録済み用語Tに含まれないので、これらの複合語は用語候補語Piである。一方、例えば、複合語“集積地区”、“入力データ形式”、“システム安全性”は登録済み用語Tと一致するので、用語候補語Pではない。
表記揺れ判定手段150は、まず、登録済み用語Tと文字列又は意味が類似する用語候補語Pを、表記揺れの可能性がある語として抽出する。
図9は、用語候補語Piと、類似する登録済み用語Tiの一例を示す図である。なお、図9は、文書Dにおいて、複合語Cが図7に示されるとおりで、登録済み用語Tが図8に示される通りである場合の、用語候補語Piと、類似する登録済み用語Tiの組を示す。なお、本具体例では、用語候補語Piと定義済み用語Tiとが類似する文字列を有すると判定されるための基準は、定義済み用語Tiと用語候補Piの編集距離が1以下であることである。例えば、表記揺れ判定手段150は、類似する用語候補を有する用語候補語Piとして、“入荷個数”、“ドライバー管理票”、“購買リスト”、“緊急通報条件”、“連絡用情報”を抽出する(図9の第1列)。なお、用語候補語Pのそれぞれに類似する登録済み用語Tiは、“入庫個数”、“ドライバー管理簿”、“購入リスト”、“緊急通知条件”、“連絡情報”である(図9の第2列)。 表記揺れ判定手段150は、次に、表記揺れの可能性がある用語候補語Piと用語候補語Piに類似する登録済み用語Tiとの組のそれぞれについて、語の出現分布を算出する。ここで、語の出現分布は、文書Dに含まれる各部分を示す文書番号dj(jは1から7までの自然数)のそれぞれにおける、用語候補語Piの出現頻度Xij、及び用語候補語Piに類似する登録済み用語Tiの出現頻度Yijである。
図10は、用語候補語Piと、類似する登録済み用語Tiの出現分布の一例を示す図である。なお、図10は、文書Dにおける用語候補語Piと、類似する類似用語Tiが図9に示される場合の出現分布である。なお、図10(a)は用語候補語Piの出現分布Xを、図10(b)は用語候補語Piに類似する登録済み用語Tiの出現分布Yを示す。
表記揺れ判定手段150は、続いて、用語候補語Piの出現分布Xと用語候補語Piに類似する登録済み用語Tiの出現分布Yとの類似度を算出する。具体的には、表記揺れ判定手段150は、例えば、用語候補語Pi毎の出現頻度Xijの並びを出現頻度ベクトル[Xi]、類似する登録済み用語Ti毎の出現頻度Yijの並びを出現頻度ベクトル[Yi]とみなす。そして、表記揺れ判定手段150は、出現頻度ベクトル[Xi]と出現頻度ベクトル[Yi]の類似度を表記揺れ判定情報Riとして算出する。なお、表記揺れ判定手段150は、類似度の算出に際して、各出現頻度ベクトルの大きさが同一になるように正規化を行ってもよい。
表記揺れ判定手段150は、用語候補語Piの出現分布Xiと用語候補語Piに類似する登録済み用語Tiの出現分布Yiとの類似度を算出する。
図11は、用語候補語Piと、類似する登録済み用語Tiの出現分布の類似度の一例を示す図である。なお、出現分布が図10に示される場合の、用語候補語Piの出現頻度ベクトル[Xi]と類似する登録済み用語Tiの出現頻度ベクトル[Yi]とのコサイン類似度は、「表記揺れ判定情報Ri」の列に示される。また、閾値が“0.5”である場合の、用語候補語Piが類似する登録済み用語Tiの表記揺れの語であるか否かの判定結果は、「表記揺れ判定結果」の列に示される。
例えば、用語候補語“購買リスト”の出現頻度ベクトルと、類似する登録済み用語“購入リスト”の出現頻度ベクトルとの間のコサイン類似度は0.64である。ここで、(2×3+5×2+1×6+6×4+8×2+4×3+2×7)/sqrt((2×2+5×5+1×1+6×6+8×8+4×4+2×2)(3×3+2×2+6×6+4×4+2×2+3×3+7×7))≒0.64である。なお、sqrt(x)はxの平方根を表す。類似度“0.64”は、閾値“0.5”よりも大きいので、用語候補語“購買リスト”は、類似する登録済み用語“購入リスト”の表記揺れではないことを意味する「No」と判定される。
また、例えば、用語候補語“ドライバー管理票”の出現頻度ベクトルと、類似する登録済み用語“ドライバー管理簿”の出現頻度ベクトルとの間のコサイン類似度は0である。ここで、(3×0+4×0+2×0+8×0+0×4+0×5+0×2)/sqrt((3×3+4×4+2×2+8×8+0×0+0×0+0×0)(0×0+0×0+0×0+0×0+4×4+5×5+5×2))=0である。類似度“0”は、閾値“0.5”よりも小さいので、用語候補語“ドライバー管理票”は、類似する登録済み用語“ドライバー管理簿”の表記揺れであることを意味する「Yes」と判定される。
同様に、用語候補語“入荷個数”は類似する登録済み用語“入庫個数”の表記揺れではないと判定される。また、用語候補語“緊急通報条件”は類似する登録済み用語“緊急通知条件”の表記揺れであると判定される。また、用語候補語“連絡用情報”は類似する登録済み用語“連絡情報”の表記揺れであると判定される。
用語候補抽出手段160は、表記揺れと推定された複合語を除く用語候補語Piを、用語集に登録されるべき用語の候補Taiであると判定する。
図12は、用語集に登録されるべき用語の候補Taiの一例を示す図である。なお、用語候補語Piが表記揺れであるか否かの判定結果が図11に示される場合の用語集に登録されるべき用語の候補Taiが示される。未登録語抽出手段140により用語候補語Piとして抽出された語は、“入荷金額”、“入荷個数”、“入力データ”、“ドライバー管理票”、“データ一括選択”、“購買リスト”、“緊急通報条件”、“連絡用情報”である。一方、表記揺れ判定手段150により表記揺れの語と判定された語は、“ドライバー管理票”、“緊急通報条件”、“連絡用情報”である。従って、用語候補抽出手段160は、“入荷金額”、“入荷個数”、“入力データ”、“データ一括選択”、“購買リスト”を用語集に登録されるべき用語の候補Taiであると判定する。
さらに、出力手段170は、判定した用語の候補Taiを、用語集に加えるべき用語として利用者に提示する。固有用語候補抽出装置105は、例えば、図12に示すようなリストを提示してもよいし、文書D内における用語の候補Taiの出現箇所を特定可能な形態(着色等)で提示してもよい。
以上説明したように、本実施形態の固有用語候補抽出装置105は、用語集に未登録の複合語のうち、用語集に登録済みの用語と文字列又は意味が類似する複合語であって、且つ登録済みの用語と出現分布が類似しない複合語を、登録済み用語の表記揺れの語であると判定する。固有用語候補抽出装置105は、表記揺れの語を除いた、用語集に未登録の複合語を、用語集に登録されるべき用語の候補として抽出する。従って、本実施形態の固有用語候補抽出装置105には、文書において類似する2つの語が、互いに異なる意味を有する用語であるのか、あるいは一方の語が用語で他方の語が用語の表記揺れの語であるのかを判別することができるという効果がある。
なお、上述した各実施形態に係る固有用語候補抽出装置は、固有用語候補抽出方法として実現され得る。また、上述した各実施形態に係る固有用語候補抽出装置は、固有用語候補抽出プログラムによりコンピュータによって実行させるようにしてもよい。
尚、上述した各実施形態に係る固有用語候補抽出装置は、専用の装置によって実現してもよいが、コンピュータ(情報処理装置)によっても実現可能である。この場合、係るコンピュータは、メモリ(不図示)に格納されたソフトウェア・プログラムをCPU(Central_Processing_Unit、不図示)に読み出し、読み出したソフトウェア・プログラムをCPUにおいて実行することにより、実行結果を、例えば、ユーザ・インタフェースに出力する。上述した各実施形態及び変形例の場合、係るソフトウェア・プログラムには、上述したところの、図1に示した固有用語候補抽出装置100の各手段、又は図4に示した固有用語候補抽出装置105の各手段の機能を実現可能な記述がなされていればよい。但し、固有用語候補抽出装置105の場合、文書入力手段110、用語集180、及び出力手段170には、適宜ハードウェアを含むことも想定される。そして、このような場合、係るソフトウェア・プログラム(コンピュータ・プログラム)は、本発明を構成すると捉えることができる。更に、係るソフトウェア・プログラムを格納した、コンピュータ読み取り可能な記憶媒体も、本発明を構成すると捉えることができる。
以上、本発明を、上述した各実施形態およびその変形例によって例示的に説明した。しかしながら、本発明の技術的範囲は、上述した各実施形態およびその変形例に記載した範囲には限定されない。当業者には、係る実施形態に対して多様な変更又は改良を加えることが可能であることは明らかである。そのような場合、係る変更又は改良を加えた新たな実施形態も、本発明の技術的範囲に含まれ得る。そしてこのことは、特許請求の範囲に記載した事項から明らかである。
上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
概ね1人の著者により記述された部分に分割された、文書に含まれる第1の複合語のうち、前記文書に固有な用語に関する用語集に未登録の第2の複合語を抽出する未登録語抽出手段と、
前記第2の複合語のうち、前記用語集に登録済みの用語と文字列又は意味が類似する第3の複合語であって、且つ前記部分における出現分布が前記登録済みの用語と類似しない第4の複合語を前記登録済みの用語の表記揺れの語であると判定する表記揺れ判定手段と、
前記第4の複合語を除く前記第2の複合語を前記用語集に登録されるべき用語の候補として抽出する用語候補抽出手段と、
を備えたことを特徴とする固有用語候補抽出装置。
(付記2)
前記表記揺れ判定手段は、前記第2の複合語を表す文字列と前記登録済みの用語を表す文字列との間の第1の距離と負の相関を持つ第1の類似度が第1の閾値より大きい場合に、前記第2の複合語と前記登録済みの用語との文字列が類似すると判定する
付記1に記載の固有用語候補抽出装置。
(付記3)
前記第1の距離は、前記第2の複合語を表す文字列と前記登録済みの用語を表す文字列との間の編集距離である付記2に記載の固有用語候補抽出装置。
(付記4)
前記表記揺れ判定手段は、前記第2の複合語に含まれる第1の構成語と前記登録済みの用語に含まれる第2の構成語との間の第2の距離に基づいて、前記第2の複合語と前記登録済みの用語との第3の距離と負の相関を持つ第2の類似度が第2の閾値より大きい場合に、前記第2の複合語と前記登録済みの用語との意味が類似すると判定する
付記1乃至3のいずれか1項に記載の固有用語候補抽出装置。
(付記5)
前記第2の距離は、単語間の階層関係が木構造を有する単語分類辞書における、前記第2の複合語に含まれる単語と前記登録済みの用語に含まれる単語との間を結ぶ枝の数である付記4に記載の固有用語候補抽出装置。
(付記6)
前記第3の距離は、前記第1の構成語との前記第2の距離が最も近い前記第2の構成語と、前記第1の構成語との前記第2の距離の、前記第2の複合語における前記第1の構成語に関する総和である付記4又は5に記載の固有用語候補抽出装置。
(付記7)
前記出現分布は、前記部分毎に、前記登録済みの用語の出現頻度、または前記第3の複合語の出現頻度を前記文書における前記部分の出現順に列挙した頻度ベクトルであり、
前記登録済みの用語の前記頻度ベクトルと前記第3の複合語の前記頻度ベクトル間の、コサイン類似度、相関係数、ジャッカード係数、若しくはダイス係数である第3の類似度、又は第4の距離と負の相関を持つ第4の類似度が、第3の閾値より大きい場合に、前記出現分布が類似すると判定する付記1乃至6のいずれか1項に記載の固有用語候補抽出装置。
(付記8)
前記第4の距離は、出前記現分布における最初の出現頻度が非0である部分と最後の出現頻度が非0である部分との間の距離である付記7に記載の用語集作成支援システム。
(付記9)
前記文書から、単語辞書を用いて、前記文書中の単語を表す文字列、前記単語が属する品詞、及び前記単語の出現位置を含む単語情報を抽出する文書解析手段と、
前記単語情報に基づいて、前記文書において直接隣接する、名詞又は前記単語辞書に登録されていない未知語が全て結合された文字列を前記第1の複合語として抽出する複合語抽出手段とを更に備え、
前記表記揺れ判定手段は、前記単語情報に基づいて、前記出現分布を算出する
ことを特徴とする付記1乃至8のいずれか1項に記載の固有用語候補抽出装置。
(付記10)
概ね1人の著者により記述された部分に分割された文書に含まれる第1の複合語のうち、前記文書に固有な用語に関する用語集に未登録の第2の複合語を抽出し、
前記第2の複合語のうち、前記用語集に登録済みの用語と文字列又は意味が類似する第3の複合語であって、且つ前記部分における出現分布が前記登録済みの用語と類似しない第4の複合語を前記登録済みの用語の表記揺れの語であると判定し、
前記第4の複合語を除く前記第2の複合語を前記用語集に登録されるべき用語の候補として抽出する
ことを特徴とする固有用語候補抽出方法。
(付記11)
固有用語候補抽出装置が備えるコンピュータにおいて、
概ね1人の著者により記述された部分に分割された文書に含まれる第1の複合語のうち、前記文書に固有な用語に関する用語集に未登録の第2の複合語を抽出する未登録語抽出処理と、
前記第2の複合語のうち、前記用語集に登録済みの用語と文字列又は意味が類似する第3の複合語であって、且つ前記部分における出現分布が前記登録済みの用語と類似しない第4の複合語を前記登録済みの用語の表記揺れの語であると判定する表記揺れ判定処理と、
前記第4の複合語を除く前記第2の複合語を前記用語集に登録されるべき用語の候補として抽出する用語候補抽出処理と、
をコンピュータに実行させることを特徴とする固有用語候補抽出プログラム。
本発明は、システム開発における要件定義書や設計書といった案件に固有の定義を有する用語を含む文書に関して、用語集に登録されるべき用語の候補を自動的に抽出し提示する用途において利用できる。これにより、用語集の作成・メンテナンスの負荷が低減され、文書の解釈における誤解が起きる頻度が減少し、円滑なコミュニケーションや顧客満足の向上などのシステム開発の効率化が実現される。
100 固有用語候補抽出装置
110 文書入力手段
120 文書解析手段
130 複合語抽出手段
140 未登録語抽出手段
150 表記揺れ判定手段
160 用語候補抽出手段
170 出力手段
180 用語集
105、106 固有用語候補抽出装置
190 PC端末
200 サーバ
300 固有用語候補抽出システム

Claims (10)

  1. 文書もしくは文書群を構成する各文章に使用されている全単語の単語情報の抽出を行う文書解析部と、文書解析部で抽出された全単語の単語情報を用いて、複合語を推測する複合語推測部と、文書群に固有の用語を登録した用語データベースと、所定の用語候補語判定ルールに基づき、用語データベースに登録されておらずかつ用語と類似した複合語を用語候補語として抽出する用語候補語抽出部と、 前記第2の複合語のうち、前記用語集に登録済みの用語と文字列又は意味が類似する第3の複合語であって、且つ前記部分における出現分布が前記登録済みの用語と類似しない第4の複合語を前記登録済みの用語の表記揺れの語であると判定する表記揺れ判定手段と、 前記第4の複合語を除く前記第2の複合語を前記用語集に登録されるべき用語の候補として抽出する用語候補抽出手段と、
    を備えたことを特徴とする固有用語候補抽出装置。
  2. 前記表記揺れ判定手段は、前記第2の複合語を表す文字列と前記登録済みの用語を表す文字列との間の第1の距離と負の相関を持つ第1の類似度が第1の閾値より大きい場合に、前記第2の複合語と前記登録済みの用語との文字列が類似すると判定する
    請求項1に記載の固有用語候補抽出装置。
  3. 前記第1の距離は、前記第2の複合語を表す文字列と前記登録済みの用語を表す文字列との間の編集距離である請求項2に記載の固有用語候補抽出装置。
  4. 前記表記揺れ判定手段は、前記第2の複合語に含まれる第1の構成語と前記登録済みの用語に含まれる第2の構成語との間の第2の距離に基づいて、前記第2の複合語と前記登録済みの用語との第3の距離と負の相関を持つ第2の類似度が第2の閾値より大きい場合に、前記第2の複合語と前記登録済みの用語との意味が類似すると判定する
    請求項1乃至3のいずれか1項に記載の固有用語候補抽出装置。
  5. 前記第2の距離は、単語間の階層関係が木構造を有する単語分類辞書における、前記第2の複合語に含まれる単語と前記登録済みの用語に含まれる単語との間を結ぶ枝の数である請求項4に記載の固有用語候補抽出装置。
  6. 前記出現分布は、前記部分毎に、前記登録済みの用語の出現頻度、または前記第3の複合語の出現頻度を前記文書における前記部分の出現順に列挙した頻度ベクトルであり、
    前記登録済みの用語の前記頻度ベクトルと前記第3の複合語の前記頻度ベクトル間の、コサイン類似度、相関係数、ジャッカード係数、若しくはダイス係数である第3の類似度、又は第4の距離と負の相関を持つ第4の類似度が、第3の閾値より大きい場合に、前記出現分布が類似すると判定する請求項1乃至5のいずれか1項に記載の固有用語候補抽出装置。
  7. 前記第4の距離は、出前記現分布における最初の出現頻度が非0である部分と最後の出現頻度が非0である部分との間の部分の個数である請求項6に記載の用語集作成支援システム。
  8. 前記文書から、単語辞書を用いて、前記文書中の単語を表す文字列、前記単語が属する品詞、及び前記単語の出現位置を含む単語情報を抽出する文書解析手段と、
    前記単語情報に基づいて、前記文書において直接隣接する、名詞又は前記単語辞書に登録されていない未知語が全て結合された文字列を前記第1の複合語として抽出する複合語抽出手段とを更に備え、
    前記表記揺れ判定手段は、前記単語情報に基づいて、前記出現分布を算出する
    ことを特徴とする請求項1乃至7のいずれか1項に記載の固有用語候補抽出装置。
  9. 概ね1人の著者により記述された部分に分割された文書に含まれる第1の複合語のうち、前記文書に固有な用語に関する用語集に未登録の第2の複合語を抽出し、
    前記第2の複合語のうち、前記用語集に登録済みの用語と文字列又は意味が類似する第3の複合語であって、且つ前記部分における出現分布が前記登録済みの用語と類似しない第4の複合語を前記登録済みの用語の表記揺れの語であると判定し、
    前記第4の複合語を除く前記第2の複合語を前記用語集に登録されるべき用語の候補として抽出する
    ことを特徴とする固有用語候補抽出方法。
  10. 固有用語候補抽出装置が備えるコンピュータにおいて、
    概ね1人の著者により記述された部分に分割された文書に含まれる第1の複合語のうち、前記文書に固有な用語に関する用語集に未登録の第2の複合語を抽出する未登録語抽出処理と、
    前記第2の複合語のうち、前記用語集に登録済みの用語と文字列又は意味が類似する第3の複合語であって、且つ前記部分における出現分布が前記登録済みの用語と類似しない第4の複合語を前記登録済みの用語の表記揺れの語であると判定する表記揺れ判定処理と、
    前記第4の複合語を除く前記第2の複合語を前記用語集に登録されるべき用語の候補として抽出する用語候補抽出処理と、
    をコンピュータに実行させることを特徴とする固有用語候補抽出プログラム。
JP2014159224A 2014-08-05 2014-08-05 固有用語候補抽出装置、固有用語候補抽出方法、及び固有用語候補抽出プログラム Active JP6476638B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014159224A JP6476638B2 (ja) 2014-08-05 2014-08-05 固有用語候補抽出装置、固有用語候補抽出方法、及び固有用語候補抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014159224A JP6476638B2 (ja) 2014-08-05 2014-08-05 固有用語候補抽出装置、固有用語候補抽出方法、及び固有用語候補抽出プログラム

Publications (2)

Publication Number Publication Date
JP2016038596A true JP2016038596A (ja) 2016-03-22
JP6476638B2 JP6476638B2 (ja) 2019-03-06

Family

ID=55529654

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014159224A Active JP6476638B2 (ja) 2014-08-05 2014-08-05 固有用語候補抽出装置、固有用語候補抽出方法、及び固有用語候補抽出プログラム

Country Status (1)

Country Link
JP (1) JP6476638B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08147324A (ja) * 1994-11-24 1996-06-07 Nippon Telegr & Teleph Corp <Ntt> 単語間意味類似性判別方法
JP2004318480A (ja) * 2003-04-16 2004-11-11 Sony Corp 電子機器装置、新語抽出方法、およびプログラム
JP2009211639A (ja) * 2008-03-06 2009-09-17 Fuji Xerox Co Ltd 文書処理装置
WO2013165334A1 (en) * 2012-04-29 2013-11-07 Hewlett-Packard Development Company, L.P. Re-digitization and error correction of electronic documents

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08147324A (ja) * 1994-11-24 1996-06-07 Nippon Telegr & Teleph Corp <Ntt> 単語間意味類似性判別方法
JP2004318480A (ja) * 2003-04-16 2004-11-11 Sony Corp 電子機器装置、新語抽出方法、およびプログラム
JP2009211639A (ja) * 2008-03-06 2009-09-17 Fuji Xerox Co Ltd 文書処理装置
WO2013165334A1 (en) * 2012-04-29 2013-11-07 Hewlett-Packard Development Company, L.P. Re-digitization and error correction of electronic documents

Also Published As

Publication number Publication date
JP6476638B2 (ja) 2019-03-06

Similar Documents

Publication Publication Date Title
US9152623B2 (en) Natural language processing system and method
RU2679988C1 (ru) Извлечение информационных объектов с помощью комбинации классификаторов
Mahmood et al. Query based information retrieval and knowledge extraction using Hadith datasets
WO2016121048A1 (ja) 文章生成装置及び方法
JP2019082931A (ja) 検索装置、類似度算出方法、およびプログラム
CN107679035A (zh) 一种信息意图检测方法、装置、设备和存储介质
Siklósi Using embedding models for lexical categorization in morphologically rich languages
JP6409071B2 (ja) 文の並び替え方法および計算機
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
Solanki et al. A system to transform natural language queries into SQL queries
WO2019163642A1 (ja) 要約評価装置、方法、プログラム、及び記憶媒体
EP3432161A1 (en) Information processing system and information processing method
JP4005343B2 (ja) 情報検索システム
Revanth et al. Nl2sql: Natural language to sql query translator
Rahat et al. Parsa: An open information extraction system for Persian
JP7122773B2 (ja) 辞書構築装置、辞書の生産方法、およびプログラム
JPWO2009113289A1 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
US20210073258A1 (en) Information processing apparatus and non-transitory computer readable medium
JP6476638B2 (ja) 固有用語候補抽出装置、固有用語候補抽出方法、及び固有用語候補抽出プログラム
JP7227705B2 (ja) 自然言語処理装置、検索装置、自然言語処理方法、検索方法およびプログラム
JP2001101184A (ja) 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体
WO2014188555A1 (ja) テキスト処理装置、及び、テキスト処理方法
Testas Natural Language Processing with Pandas, Scikit-Learn, and PySpark
JP5312531B2 (ja) 文章対応付けシステムおよび文章対応付けプログラム
Truskinger et al. Reconciling folksonomic tagging with taxa for bioacoustic annotations

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170718

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180529

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180704

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190121

R150 Certificate of patent or registration of utility model

Ref document number: 6476638

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150