JP5720071B2 - 複合語概念分析システム、方法およびプログラム - Google Patents

複合語概念分析システム、方法およびプログラム Download PDF

Info

Publication number
JP5720071B2
JP5720071B2 JP2011152897A JP2011152897A JP5720071B2 JP 5720071 B2 JP5720071 B2 JP 5720071B2 JP 2011152897 A JP2011152897 A JP 2011152897A JP 2011152897 A JP2011152897 A JP 2011152897A JP 5720071 B2 JP5720071 B2 JP 5720071B2
Authority
JP
Japan
Prior art keywords
concept
word
compound
constituent
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011152897A
Other languages
English (en)
Other versions
JP2013020427A (ja
Inventor
英司 平尾
英司 平尾
古橋 武
武 古橋
大弘 吉川
大弘 吉川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nagoya University NUC
NEC Corp
Tokai National Higher Education and Research System NUC
Original Assignee
Nagoya University NUC
NEC Corp
Tokai National Higher Education and Research System NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nagoya University NUC, NEC Corp, Tokai National Higher Education and Research System NUC filed Critical Nagoya University NUC
Priority to JP2011152897A priority Critical patent/JP5720071B2/ja
Publication of JP2013020427A publication Critical patent/JP2013020427A/ja
Application granted granted Critical
Publication of JP5720071B2 publication Critical patent/JP5720071B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、複合語概念分析システム、方法およびプログラムに関し、特に、情報システム構築に関する提案書や仕様書といった専門領域での複合語の多い文書中の複合語の概念を推定する複合語概念分析システム、方法およびプログラムに関する。
近年、情報処理装置を用いて、自然言語で書かれた文書を分析して、その文書の意味や意義を自動推定するシステムが開発されている。そのなかで、文章中の複合語の取り扱いが問題になることがある。
複合語概念分析システムに関する技術の一例が、特許文献1に「複合語の類似度判定システム」として記載されている。この特許文献1に開示された複合語の類似度判定システムは、入力部と、単語関係辞書記憶部と、複合語分解部と、単語関係情報取得部と、単語比較部と、類似度確定部と、出力部とから構成されている。このような構成を有する複合語の類似度判定システムは、次のように動作する。
すなわち、入力部は対比する任意の複合語の入力と、二つの複合語をそれぞれ比較基準側と比較対象側とに指定する情報を受け付ける。単語関係辞書記憶部は、所定の単語及びこれと関連する関連単語を記憶する。また、複合語分解部は、対比される複合語ごとに、単語関係辞書記憶部に記憶された単語レベルに分解する。そして単語関係情報取得部は、分解された複合語のうち、比較基準側の複合語の単語ごとに、単語関係辞書記憶部に記憶された単語及び関連単語に基づく同義語・類義語リストを作成する。さらに、単語比較部は、分解された複合語のうち、比較対象側の複合語の各単語が、単語関係情報取得部で作成された単語情報リストに含まれるか否かを判定する。類似度確定部は、この単語比較部での判定結果に応じて、対応する単語ごとに類似度を示す評価値を与え、この評価値に基づいて、対比される複合語の類似度を算出する。最後に出力部は算出された類似度を表示する。このような複合語の類似度判定システムは、対比される各複合語を単語レベルに分解し、辞書の単語の同義語及び類義語情報に基づき、分解された単語ごとに類似度を算出,判定することで、各複合語が有する意味合いを考慮した複合語間の類似度判定を実現している。
さらに、複合語概念分析システムに関する技術の他の例が、特許文献2に「複合語認識装置」として記載されている。この特許文献1に開示された複合語認識装置は、複合語入力部と、形態素解析部と、単位語類似度計算部と、複合語類似度計算部と、複合語照合結果出力部とから構成されている。このような構成を有する複合語認識装置は、次のように動作する。すなわち、複合語入力部は、複数の単位語で構成される複合語の入力を受け付ける。次に、形態素解析部は該複合語入力部より入力された該複合語を単位語単位に分解する。さらに、単位語類似度計算部は、少なくとも2つの複合語を構成する単位語間の類似度を文字数、文字類似度、文字一致数、文字の順序、位置情報を用いて単位語の構成要素である文字を単位として計算する。複合語類似度計算部は、単位語の一致にその一致の位置により定義した重み関数に基づき、2つの複合語の類似度を算出する。複合語照合結果出力部は、算出された複合語類似度を出力する。このような構成により、比較する複合語を、それぞれ所定の単位語に分解し、単位語ごとに文字一致の類似度を計算し、さらに入力した複合語を構成する単位語の双方の一致位置の重みを反映するように定義した関数で重みづけを行うことで、複合語間の類似度を算出することを実現している。
特開2001−325292号公報 特開平6−274547号公報
このような技術による複合語の概念分析方法を、専門領域に係わる複合語の多い文書中の複合語の概念推定に適用した場合、的確な複合語の概念の把握が困難という課題がある。その理由は、専門領域に係わる文書中に使用される複合語は、複合語を構成する構成語間の重みが複合語毎に異なるにもかかわらず、上記技術のように、重み付けを分析者が定義する方法では、全ての複合語に機械的に一律の重み付けを適用することになり、個々の複合語の意味的な重みに合わない重み付けが行われてしまうためである。
本発明の目的は、上記事情に鑑み、情報システム構築に関する提案書や仕様書といった専門領域に係わる複合語の多い文書中の複合語の概念を適切に推定する複合語概念分析システム、方法およびプログラムを提供することにある。
上述の課題に鑑み、本発明の一態様は、対象とする文書もしくは文書群の入力を受け付ける文書入力部と、単語の概念情報を収集して蓄積した概念データベースと、文書もしくは文書群に使用されている単語と複合語および複合語を構成する構成語を抽出し、複合語を構成する各構成語の概念情報について、概念データベースに問い合わせ、概念情報として取得する単語分析部と、複合語毎に、任意の範囲内で、同じ構成語を含む部分一致複合語と共起する共起語の種類と共起数について抽出し、構成語別に各部分一致複合語間の共起パターンの集約度を表す構成語支配度を算出する構成語支配度算出部と、各構成語の概念情報に各構成語支配度で重み付けを与えることで、重み付けされた複数の概念の合成概念として未知の複合語の概念を推定する複合語概念推定部と、上記複合語の合成概念を出力する単語概念出力部と、を備えたことを特徴とする複合語概念分析システムに関する。
また、本発明の他の態様は、対象とする文書もしくは文書群の入力を受け付ける文書入力部と、単語の概念分類を含む概念情報を収集して蓄積した概念データベースと、文書もしくは文書群を構成する文章に使用されている各単語の抽出および単語毎の品詞や格、組み合される助詞、単語間の係り受け関係に関する単語情報を抽出し、概念データベースに各単語の概念情報を問い合わせ、概念データベースに登録が無く、かつ複数の文字からなる単語を複合語として抽出し、複合語を構成するあらゆる部分文字列について、概念データベースに概念情報を問い合わせ、概念情報の登録がある部分文字列を複合語の有意構成語として抽出し、抽出した有意構成語を元の複合語から分離した場合に概念データベースに概念情報の登録が無い部分文字列が残る場合は不明構成語として抽出し、さらに有意構成語の概念情報を概念情報として取得する単語分析部と、複合語毎に共起する各共起語の共起数を集計し、同じ構成語を含む部分一致複合語の各共起語の共起数を抽出することで、構成語別に各部分一致複合語間の集約度を構成語支配度として算出する構成語支配度算出部と、複合語の構成語に不明構成語が含まれる場合は不明構成語自体を概念とみなし、各複合語と、上記複合語の各構成語と紐付く概念との対応関係として各構成語支配度に基づく各概念の重み付け係数を登録した定量概念表を作成し、重み付けされた複数の概念の合成概念として未知の複合語の概念を推定する複合語概念推定部と、上記複合語の合成概念を出力する単語概念出力部と、を備えたことを特徴とする複合語概念分析システムに関する。
また、本発明の他の態様は、対象とする文書もしくは文書群の入力を受け付ける文書入力部と、単語の概念分類、同義語、類義語、用法といった単語の一般概念を体系付けた概念情報を収集して蓄積した概念データベースと、文書もしくは文書群を構成する文章に使用されている各単語の抽出および単語毎の品詞や格、組み合される助詞、単語間の係り受け関係に関する単語情報を抽出し、概念データベースに各単語の概念情報を問い合わせ、概念データベースに登録が無く、かつ複数の文字からなる単語を複合語として抽出し、複合語を構成するあらゆる部分文字列について、概念データベースに概念情報を問い合わせ、概念情報の登録がある部分文字列を複合語の有意構成語として抽出し、抽出した有意構成語を元の複合語から分離した場合に概念データベースに概念情報の登録が無い部分文字列が残る場合は不明構成語として抽出し、さらに有意構成語の概念情報を概念情報として取得する単語分析部と、複合語毎に共起する各共起語の共起数を集計し、同じ構成語を含む部分一致複合語の各共起語の共起数を抽出することで、構成語別に各部分一致複合語間の集約度を構成語支配度として算出する構成語支配度算出部と、複合語の構成語に不明構成語が含まれる場合は不明構成語自体を概念とみなし、各複合語と、上記複合語の各構成語と紐付く概念との対応関係として各構成語支配度に基づく各概念の重み付け係数を登録した定量概念表を作成し、重み付けされた複数の概念の合成概念として未知の複合語の概念を推定する複合語概念推定部と、上記単語の内、複合語に分類されなかった単語の概念情報を概念データベースに問い合わせ、単語と概念を紐付け、単語に対して帰属する概念が1つに定まる単語を概念確定単語、複数の概念に帰属する単語を概念不確定単語として分類するとともに、概念確定単語毎に紐付いた概念を確定概念、概念不確定単語毎に紐付いた複数の概念を概念候補として抽出する概念候補抽出部と、上記複合語、概念確定単語、概念不確定単語について、それぞれの単語の出現数と、紐づいた合成概念、確定概念および概念候補を抽出し、対応付けた概念分布表を作成する概念分布抽出部と、合成概念、確定概念、概念候補毎の出現量を累積することで、合成概念、確定概念、概念候補毎の重複度である概念重複度を算出する概念重複度算出部と、概念重複度に基づき各概念不確定単語の概念候補間の概念重複度を比較し、最も概念重複度の高い概念候補を各概念不確定単語の利用概念として抽出する利用概念推定部と、複合語の合成概念、確定概念、および利用概念を出力する単語概念出力部と、を備えたことを特徴とする複合語概念分析システムに関する。
また、本発明の他の態様は、対象とする文書もしくは文書群の入力を受け付ける受付工程と、文書もしくは文書群に使用されている単語と複合語および複合語を構成する構成語を抽出し、複合語を構成する各構成語の概念情報について単語の概念情報を収集して蓄積した概念データベースに問い合わせ、概念情報として取得する取得工程と、複合語毎に、任意の範囲内で、同じ構成語を含む部分一致複合語と共起する共起語の種類と共起数について抽出し、構成語別に各部分一致複合語間の共起パターンの集約度を表す構成語支配度を算出する構成語支配度算出工程と、各構成語の概念情報に各構成語支配度で重み付けを与えることで、重み付けされた複数の概念の合成概念として未知の複合語の概念を推定する推定工程と、上記複合語の合成概念を出力する出力工程と、を含むことを特徴とする要求文書分析方法に関する。
また、本発明の他の態様は、対象とする文書もしくは文書群の入力を受け付ける受付工程と、文書もしくは文書群を構成する文章に使用されている各単語の抽出および単語毎の品詞や格、組み合される助詞、単語間の係り受け関係に関する単語情報を抽出し、単語の概念分類を含む概念情報を収集して蓄積した概念データベースに各単語の概念情報を問い合わせ、概念データベースに登録が無く、かつ複数の文字からなる単語を複合語として抽出し、複合語を構成するあらゆる部分文字列について、概念データベースに概念情報を問い合わせ、概念情報の登録がある部分文字列を複合語の有意構成語として抽出し、抽出した有意構成語を元の複合語から分離した場合に概念データベースに概念情報の登録が無い部分文字列が残る場合は不明構成語として抽出し、さらに有意構成語の概念情報を概念情報として取得する取得工程と、複合語毎に共起する各共起語の共起数を集計し、同じ構成語を含む部分一致複合語の各共起語の共起数を抽出することで、構成語別に各部分一致複合語間の集約度を構成語支配度として算出する構成語支配度算出工程と、複合語の構成語に不明構成語が含まれる場合は不明構成語自体を概念とみなし、各複合語と、上記複合語の各構成語と紐付く概念との対応関係として各構成語支配度に基づく各概念の重み付け係数を登録した定量概念表を作成し、重み付けされた複数の概念の合成概念として未知の複合語の概念を推定する推定工程と、上記複合語の合成概念を出力する出力工程と、を含むことを特徴とする要求文書分析方法に関する。
また、本発明の他の態様は、対象とする文書もしくは文書群の入力を受け付ける受付工程と、文書もしくは文書群を構成する文章に使用されている各単語の抽出および単語毎の品詞や格、組み合される助詞、単語間の係り受け関係に関する単語情報を抽出し、単語の概念分類、同義語、類義語、用法といった単語の一般概念を体系付けた概念情報を収集して蓄積した概念データベースに各単語の概念情報を問い合わせ、概念データベースに登録が無く、かつ複数の文字からなる単語を複合語として抽出し、複合語を構成するあらゆる部分文字列について、概念データベースに概念情報を問い合わせ、概念情報の登録がある部分文字列を複合語の有意構成語として抽出し、抽出した有意構成語を元の複合語から分離した場合に概念データベースに概念情報の登録が無い部分文字列が残る場合は不明構成語として抽出し、さらに有意構成語の概念情報を概念情報として取得する取得工程と、複合語毎に共起する各共起語の共起数を集計し、同じ構成語を含む部分一致複合語の各共起語の共起数を抽出することで、構成語別に各部分一致複合語間の集約度を構成語支配度として算出する構成語支配度算出工程と、複合語の構成語に不明構成語が含まれる場合は不明構成語自体を概念とみなし、各複合語と、上記複合語の各構成語と紐付く概念との対応関係として各構成語支配度に基づく各概念の重み付け係数を登録した定量概念表を作成し、重み付けされた複数の概念の合成概念として未知の複合語の概念を推定する推定工程と、上記単語の内、複合語に分類されなかった単語の概念情報を概念データベースに問い合わせ、単語と概念を紐付け、単語に対して帰属する概念が1つに定まる単語を概念確定単語、複数の概念に帰属する単語を概念不確定単語として分類するとともに、概念確定単語毎に紐付いた概念を確定概念、概念不確定単語毎に紐付いた複数の概念を概念候補として抽出する概念候補抽出工程と、上記複合語、概念確定単語、概念不確定単語について、それぞれの単語の出現数と、紐づいた合成概念、確定概念および概念候補を抽出し、対応付けた概念分布表を作成する作成工程と、合成概念、確定概念、概念候補毎の出現量を累積することで、合成概念、確定概念、概念候補毎の重複度である概念重複度を算出する概念重複度算出工程と、概念重複度に基づき各概念不確定単語の概念候補間の概念重複度を比較し、最も概念重複度の高い概念候補を各概念不確定単語の利用概念として抽出する利用概念抽出工程と、複合語の合成概念、確定概念、および利用概念を出力する出力工程と、を含むことを特徴とする要求文書分析方法に関する。
本発明によれば、情報システム構築に関する提案書や仕様書といった専門領域での複合語の多い文書中の複合語の概念を推定する複合語概念分析システム、方法およびプログラムを提供できる。
本発明の更なる利点及び実施形態を、記述と図面を用いて下記に詳細に説明する。
本発明の第1の実施形態に係る複合語概念分析システムの構成を示すブロック図である。 図1に示した複合語概念分析システムの動作例を示すシーケンス図である。 本発明の第2の実施形態に係る複合語概念分析システムの構成を示すブロック図である。 図3に示した複合語概念分析システムの動作例を示すシーケンス図である。 本発明の第1の実施例に係る複合語概念分析システムの構成を示すブロック図である。 構成語「システム」を含む部分一致複合語共起表Txの一部の例を示す説明図である。 構成語「変更」を含む部分一致複合語共起表Txの一部の例を示す説明図である。 複合語「システム変更」に関する定量概念表Tqjの例を示す説明図である。 本発明の第2の実施例に係る複合語概念分析システムの構成を示すブロック図である。 概念分布表Rの一部の例を示す説明図である。
[実施形態1]
最初、本発明の第1の実施形態について、図面を参照して詳細に説明する。
図1は、本発明の第1の実施形態に係る複合語概念分析システム100の構成を示すブロック図である。
図1を参照すると、本発明の第1の実施形態に係る複合語概念分析システム100は、基本的に電子機器内もしくはサーバと電子機器およびこれらを相互に接続するインターネット等の情報通信ネットワークからなるシステム内に、少なくとも、文書入力部10と、単語分析部20と、構成語支配度算出部30と、概念データベース110と、複合語概念推定部40と、単語概念出力部90と、を含む。
図示の複合語概念分析システム100は、情報システム構築に関する提案書や仕様書といった専門領域での複合語の多い文書中の複合語の概念を推定する複合語概念分析システムである。
電子機器で複合語概念分析システムを構成する場合、複合語概念分析システム100は、プログラム制御により動作するコンピュータで実現可能である。図示はしないが、この種のコンピュータは、周知のように、データを入力する入力装置と、データ処理装置と、データ処理装置での処理結果を出力する出力装置と、種々のデータベースとして働く補助記憶装置とを備えている。そして、データ処理装置は、プログラムを記憶するリードオンリメモリ(ROM)と、データを一時的に記憶するワークエリアとして使用されるランダムアクセスメモリ(RAM)と、ROMに記憶されたプログラムに従って、RAMに記憶されているデータを処理する中央処理装置(CPU)とから構成される。この場合、データ処理装置が、文書入力部10と、単語分析部20と、構成語支配度算出部30および複合語概念推定部40として働き、補助記憶装置が概念データベース110として動作し、出力装置が単語概念出力部90として働く。
次に、複合語概念分析システム100を構成する各構成要素の動作について説明する。
文書入力部10は、複合語の概念を推定する対象とする文書もしくは文書群の入力を受け付ける。
概念データベース110は、収集された単語の概念分類および同義語、類義語、用法などの一般概念情報を蓄積し、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する一般概念情報を検索し応答するデータベースである。概念データベース110は、単語の上位/下位関係、部分/全体関係、同義関係、類義関係などによって単語を分類し、体系づけたシソーラスや、一般的なWebや文書内の文中で各単語と共起する共起語の種類と数を集計した共起語集計表などが相当する。なお、概念データベース110として、インターネット上のデータベースを使用することとしてもよい。
単語分析部20は、文書もしくは文書群を構成する全ての文章に形態素解析や構文解析を適用することで、各文章に使用されている全単語および単語毎の品詞や格、組み合される助詞、単語間の係り受け関係に関する単語情報を抽出する。ここで、単語は名詞、動詞、形容詞など単独で意味をなす自立語に限定しても良い。上記単語情報には必要に応じて単語間の係り受け関係などを含めても良い。次に、単語分析部20は、抽出された各単語の一般概念情報を概念データベース110に問い合わせ、概念データベース110に登録が無く、かつ文字数が2文字以上の単語を複合語として抽出する。さらに単語分析部20は、複合語を構成するあらゆる部分文字列について、概念データベース110に一般概念情報を問い合わせ、一般概念情報の登録がある部分文字列を複合語の有意構成語として抽出し、抽出した有意構成語を元の複合語から分離した場合に概念データベース110に一般概念情報の登録が無い部分文字列が残る場合は不明構成語として抽出し、さらに有意構成語の一般概念情報を構成語概念として取得する。なお複合語を構成する部分文字列の内、概念データベース110に一般概念情報の登録がある部分文字列の組合せパターンが複数考えられる場合は、任意の構成語分離ルールに基づいて最適な組合せパターンを判定し、その組合せパターンでの有意構成語、不明構成語を抽出する。ここで、構成語分離ルールとしては、不明構成語の文字数が最も少なくなるパターンを優先するルールや、入力された文書中に単独の単語として出現する頻度が高い有意構成語を優先するルール、一般の文書中に単独の単語として出現する頻度が高い有意構成語を優先するルール、およびこれらを組合せたルールなどが有効である。また、入力された文書中に含まれる他の複合語に共通して使用されている文字列が所定頻度以上に使用されている場合にはその文字列を除いた残りの文字列について、有意構成語として優先するルールを用いてもよい。なお、一般概念情報とはシソ−ラスにおける分類や、単語の意味を直接的に表すキーワード、類語の集合などが考えられる。なお、以下で単に構成語と記載した場合は有意構成語と不明構成語を含む。
構成語支配度算出部30は、単語分析部20で抽出された各文章に使用されている単語情報および複合語などを用いて、任意に指定された文章郡の範囲で複合語と共起する単語を共起語として、複合語毎に共起語の種類と、共起数を抽出し、これらをまとめることで共起表を作成する。ここで、上記文章群の範囲としては1文、1段落内の全文章、目次上の同一項目内での全文章、文書全体など、文書の特徴に合わせて選択して良く、品詞が動詞であれば係り受け関係が有る単語、名詞であれば同一段落内の単語のように品詞毎に共起と見なす範囲および条件を変えて共起語の抽出および共起数の算出を行っても良い。また、共起数は共起回数でも良いが、共起回数を複合語毎の全共起語数で除した頻度などでも良い。また、基軸単語共起語とその共起数について、推定元とする所定文書について、重要度や確度、文書間の親子関係などに基づく重み付けを行なうようにしても良い。さらに、単語情報に単語間の係り受け関係が含まれる場合は、係り受け関係のある単語かどうかを上記文章群の範囲として利用しても良い。また、共起表とは各行が各複合語に、各列が各共起語に対応している行列で、複合語に対する共起語の共起回数もしくは頻度が表の各値として登録されたものである。さらに、構成語支配度算出部30は、上記共起表と単語分析部20で抽出された構成語に基づき、上記共起表から同じ構成語を含む部分一致複合語の行情報を抽出し、構成語別に部分一致複合語共起表を作成し、部分一致複合語共起表の行情報から得られる共起ベクトル空間における各部分一致複合語間の集約度を構成語支配度として算出する。ここで、共起ベクトル空間は各ベクトルを対等としても良いが、共起語の品詞によって重み付けを行ったベクトル空間に変換しても良い。また、各部分一致複合語間の集約度とは各部分一致複合語に対応するベクトル間の散らばりの小ささを表す指標であればどのような算出方法によっても良い。例えば分散や標準偏差、変動係数などの一般に統計で用いられるばらつきを示す指標と単調減少の関係にある関数であればよく、分散の逆数や変動係数の逆数などが適している。
複合語概念推定部40は、複合語毎に単語分析部20で概念データベース110から取得した各構成語の一般概念情報に基づき複合語が関連する概念をまとめた定性概念表を作成する。定性概念表とは各行が各複合語に、各列が複合語の各構成語の概念に対応した行列で、複合語と概念との間に構成語を介した関連があるかどうかの有無が登録されたものである。なお、複合語の構成語に不明構成語が含まれる場合、不明構成語自体を概念として新たに列を加える。さらに、複合語概念推定部40は、構成語支配度算出部30で算出した各構成語支配度で複合語毎の各概念の重み付け係数を算出し、定性概念表の対応する箇所に重み付け係数を登録することで、定量概念表を作成し、重み付けされた複数の概念の合成概念として未知の複合語の概念を推定する。ここで、定性概念表の各概念を構成語支配度で重み付ける方法としては、各構成語の構成語支配度を複合語毎の構成語支配度の総和で除すことで正規化した重み付け係数を概念表の対応部分の数値として登録する方法などが有効である。
単語概念出力部90は、複合語概念推定部40で推定した複合語の合成概念を出力する。ここで、出力形態は、所要の形態で出力すればよく、定量概念表をそのまま出力しても良いし、文書内における複合語に付加情報として概念とその重み付け係数を提示しても良い。他にも、複合語を中心ノード、各構成語の概念を従属ノードとして構成語支配度による重み付け係数に比例する太さのリンクで結んだグラフを表示するなどの形態であっても良い。また、各出力形態を選択できるようにして、ベースとなる表示形態から必要に応じて表やグラフに移行できるようにしてもよい。また、必要に応じて動詞や名詞などを選択的に出力するようにしてもよい。
次に、図1及び図2のシーケンス図を参照して、本発明の第1の実施形態に係る複合語概念分析システム100の全体の動作について詳細に説明する。なお、図2に示すシーケンス図及び以下の説明は処理例であり、適宜求める処理に応じて処理順等を入れ替えたり処理を戻したり繰り返したりすることを行ってもよい。
文書入力部10は、対象とする文書もしくは文書群の入力を受け付ける。(図2のステップA1)。
単語分析部20は、文書もしくは文書群を構成する全ての文章に形態素解析や構文解析を適用することで、各文章に使用されている全単語および単語毎の品詞や格、組み合される助詞、単語間の係り受け関係に関する単語情報を抽出する。(図2のステップA2)。
概念データベース110は、収集蓄積されている単語の一般的な概念分類および同義語、類義語、用法などの一般概念情報から、特定の単語に関する問い合わせに対して、適宜、単語の意味や用法に関連する一般概念情報を検索し応答する(図2のステップA3)。
次に、単語分析部20は、抽出された各単語の一般概念情報を概念データベース110に問い合わせ、概念データベース110に登録が無く、かつ文字数が2文字以上の単語を複合語として抽出する。(図2のステップA4)。
さらに単語分析部20は、複合語を構成するあらゆる部分文字列について、概念データベース110に一般概念情報を問い合わせ、一般概念情報の登録がある部分文字列を複合語の有意構成語として抽出し、抽出した有意構成語を元の複合語から分離した場合に概念データベース110に一般概念情報の登録が無い部分文字列が残る場合は不明構成語として抽出し、さらに有意構成語の一般概念情報を概念情報として取得する。(図2のステップA5)。
構成語支配度算出部30は、単語分析部20で抽出された各文章に使用されている単語情報および複合語に基づき、所定の範囲内で複合語と共起する単語を共起語として、複合語毎に共起語の種類と、共起数を抽出し、これらをまとめることで共起表を作成する。(図2のステップA6)。
さらに、構成語支配度算出部30は、上記共起表と単語分析部20で抽出された構成語に基づき、上記共起表から同じ構成語を含む部分一致複合語の行情報を抽出し、構成語別に部分一致複合語共起表を作成し、部分一致複合語共起表の行情報から得られる共起ベクトル空間における各部分一致複合語間の集約度を構成語支配度として算出する。(図2のステップA7)。
複合語概念推定部40は、複合語毎に単語分析部20で概念データベース110から取得した各構成語の構成語概念に基づき複合語が関連する概念をまとめた定性概念表を作成する。(図2のステップA8)。
さらに、複合語概念推定部40は、構成語支配度算出部30で算出した各構成語支配度で複合語毎の各概念の重み付け係数を算出し、定性概念表の対応する箇所に重み付け係数を登録することで、定量概念表を作成し、重み付けされた複数の概念の合成概念として未知の複合語の概念を推定する。(図2のステップA9)。
単語概念出力部90は、複合語概念推定部40で推定できた複合語の合成概念を出力する(図2のステップA10)。
次に、本発明の第1の実施形態に係る複合語概念分析システム100の効果について説明する。
本第1の実施形態では、複合語の構成語について、部分一致する構成語を持つ複合語間の文書内での共起ベクトルの集約度に基づいて算出した構成語の支配度で概念に重み付けを行うように構成しているため、対象とする文書もしくは文書群に特有の複合語に対して適切に構成される概念を定量的に把握することができ、独自の用法が多い専門領域の文書などの複合語の概念を精度よく推定できる。
尚、上記本発明の第1の実施形態に係る複合語概念分析システム100は、専門領域での複合語の多い文書中の複合語の概念を推定する複合語概念分析方法として実現され得る。また、上記本発明の第1の実施形態に係る要求文書分析システム100は、複合語概念分析プログラムによりコンピュータによって実行させるようにしても良い。
[実施形態2]
次に、本発明の第2の実施形態について、図面を参照して詳細に説明する。
図3は、本発明の第2の実施形態に係る複合語概念分析システム100Aの構成を示すブロック図である。 図3を参照すると、本発明の第2の実施形態に係る複合語概念分析システム100Aは、概念候補抽出部50と、概念分布抽出部60と、概念重複度算出部70と、利用概念推定部80を更に含むと共に、後述するように単語概念出力部90の動作が相違する点を除いて、図1に示した第1の実施形態に係る要求文書分析システム100と同様の構成を有し、動作をする。したがって、単語概念出力部に90Aの参照符号を付してある。
図示の複合語概念分析システム100Aを上述したコンピュータで実現した場合、データ処理装置が、文書入力部10、単語分析部20、構成語支配度算出部30、複合語概念推定部40、概念候補抽出部50、概念分布抽出部60、概念重複度算出部70、利用概念推定部80として働き、補助記憶装置が概念データベース110として動作し、出力装置が単語概念出力部90Aとして働く。
次に、複合語概念分析システム100Aを構成する各構成要素の動作について説明する。
概念候補抽出部50は、単語分析部20で抽出された単語の内、名詞、動詞、形容詞など単独で意味をなす自立語でかつ複合語に分類されなかった単語について、概念データベースに110に一般概念情報を問い合わせ、単語と概念を紐付ける。さらに、概念候補抽出部50は、単語に対して帰属する概念が1つに定まる単語を概念確定単語、複数の概念に帰属する単語を概念不確定単語として分類するとともに、概念確定単語毎に紐付いた概念を確定概念、概念不確定単語毎に紐付いた複数の概念を概念候補として抽出する。
概念分布抽出部60は、任意に指定された文章群の範囲で利用される単語の内、複合語概念推定部40で推定された未知の複合語、および概念候補抽出部50で抽出された概念確定単語と概念不確定単語について、それぞれの単語の出現数と、紐づいた合成概念、確定概念および概念候補を抽出し、上記文章群の範囲における概念分布表を作成する。概念分布表とは各行が各複合語、概念確定単語と概念不確定単語に、各列が複合語の合成概念、概念確定単語の確定概念および概念不確定単語の概念候補に対応した行列で、上記文章群の範囲内での単語に対する合成概念と確定概念、概念候補の出現量が表の各値として登録されたものである。ここで、出現量としては、単純に単語の出現数を登録しても良いが、合成概念の場合は各概念の重み付け値と出現数の積を、確定概念の場合は出現数を、概念候補の場合は出現数を候補となる概念数で除したものを登録するなどしても良い。また、上記文章群の範囲としては、1段落内の全文章、目次上の同一項目内での全文章、文書全体など、文書の特徴に合わせて選択して良い。
概念重複度算出部70は、概念分布表に基づき、上記文章群の範囲内での合成概念、確定概念および概念候補毎の出現量を累積することで、合成概念、確定概念および概念候補毎の重複度である概念重複度を算出する。ここで、概念重複度の算出方法は単純に各複合語、概念確定単語と概念不確定単語を区別せずに合成概念、確定概念および概念候補の出現量の総和を取っても良いが、TF・IDFなどで複合語、概念確定単語および概念不確定単語に重みを与え付け、出現量を重み付けた値の総和で算出しても良い。
利用概念推定部80は、概念重複度に基づき各概念不確定単語の概念候補間の概念重複度を比較し、最も概念重複度の高い概念候補を利用可能性の高い概念として抽出し、これを各概念不確定単語の利用概念とする。なお、複合語の有意構成語に概念不確定単語が含まれる場合も同様に利用概念を抽出する。
単語概念出力部90Aは、複合語概念推定部40で推定した複合語の合成概念に加え、概念候補抽出部50で紐付けられた確定概念、および利用概念推定部80で推定された各概念不確定単語の利用概念を出力する点で、図1に示した単語概念出力部90と異なる。ここで、出力形態は、定量概念表の行側に各概念確定単語および概念不確定単語を加え、列側に確定概念および利用概念を加えた表をそのまま出力しても良いし、文書内における複合語に付加情報として概念とその重み付け係数を、概念確定単語および概念不確定単語に付加情報として対応する確定概念もしくは利用概念を提示しても良い。
それ以外の文書入力部10と、単語分析部20と、構成語支配度算出部30と、概念データベース110と、複合語概念推定部40の構成と機能は、図1に示した第1の実施形態のそれらとそれぞれ同じであるので、説明を省略する。
次に、図3及び図4のシーケンス図を参照して、本発明の第2の実施形態に係る複合語概念分析システム100Aの全体の動作について詳細に説明する。なお、図4に示すシーケンス図および以下の説明は処理例であり、第1の実施形態と同様に処理順等を入れ替えたり処理を戻したりすることを行ってもよい。
上述した第1の実施形態の動作と比較すると、以下に説明する本第2の実施形態の動作は、次の動作が加わっている点で異なる。
概念候補抽出部50は、単語分析部20で抽出された単語の内、名詞、動詞、形容詞など単独で意味をなす自立語でかつ複合語に分類されなかった単語について、概念データベースに110に一般概念情報を問い合わせ、単語と概念を紐付ける(ステップB1)。
さらに、概念候補抽出部50は、単語に対して帰属する概念が1つに定まる単語を概念確定単語、複数の概念に帰属する単語を概念不確定単語として分類するとともに、概念確定単語毎に紐付いた概念を確定概念、概念不確定単語毎に紐付いた複数の概念を概念候補として抽出する(ステップB2)。
概念分布抽出部60は、任意に指定された文章群の範囲で利用される単語の内、複合語概念推定部40で推定された未知の複合語、および概念候補抽出部50で抽出された概念確定単語と概念不確定単語について、それぞれの単語の出現数と、紐づいた合成概念、確定概念および概念候補を抽出し、上記文章群の範囲における概念分布表を作成する(ステップB3)。
概念重複度算出部70は、概念分布表に基づき、上記文章群の範囲内での合成概念、確定概念および概念候補毎の出現量を累積することで、合成概念、確定概念および概念候補毎の重複度である概念重複度を算出する(ステップB4)。
利用概念推定部80は、概念重複度に基づき各概念不確定単語の概念候補間の概念重複度を比較し、最も概念重複度の高い概念候補を利用可能性の高い概念として抽出し、これを各概念不確定単語の利用概念とする(ステップB5)。
単語概念出力部90Aは、複合語概念推定部40で推定した複合語の合成概念に加え、概念候補抽出部50で紐付けられた確定概念、および利用概念推定部80で推定された各概念不確定単語の利用概念を出力する(ステップB6)。
他のステップの動作は、上述した第1の実施形態における動作と同一であるので、それらの説明については省略する。
次に、本発明の第2の実施形態の効果について説明する。
第2の実施の形態では、第1の実施の形態に加え、文書内の各単語について、複合語は構成語の支配度で概念に重み付けられた合成概念として、単語に対して帰属する概念が1つに定まる概念確定単語は確定概念として、複数の概念に帰属する単語は概念不確定単語として抽出するとともに、任意に指定された文章群の範囲で利用される単語の各概念について、単語の出現数と、紐づいた合成概念、確定概念および概念候補を抽出することで、概念分布表を作成し、合成概念、確定概念および概念候補毎の出現量を累積することで、概念重複度を算出し、各概念不確定単語の概念候補間の概念重複度を比較することで最も利用可能性の高い概念を各概念不確定単語の利用概念として推定するように構成され、文書内で利用されている可能性の高い概念を未知の複合語まで考慮して推定するため、文書内の単語の概念候補を的確に絞り込むことができ、複合語が多く独自の用法が多い専門領域の文書などの単語の概念を推定できる。
尚、上記本発明の第2の実施形態に係る複合語概念分析システム100Aは、複合語概念分析方法として実現され得る。また、上記本発明の第2の実施形態に係る複合語概念分析システム100Aは、複合語概念分析プログラムによりコンピュータによって実行させるようにしても良い。
次に、図5を参照して、具体的な第1の実施例を用いて、本発明の第1の実施形態に係る複合語概念分析システム100の動作について説明する。
本第1の実施例では、次のことを目的としている。
先ず、複合語概念分析システム100は、情報システム構築に関する提案書や仕様書といった複合語の多い文書D内に含まれる意味的に未知な複合語Aの概念Cを推定する。そして、要求文書分析システム100は、推定結果を出力することで、未登録の用語に関する用語集の作成や同義語、多義語の推定を支援する。
また、本第1の実施例では、複合語概念分析システム100は、図5に示されるように、文書解析システムYと、インターネット・サーバZとで構成されるものとする。
文書解析システムYは、分析実施者Bの持つPC端末上で動作し、入力部及び出力部を介して、分析実施者Bが意味的に未知な複合語を含む文書群の入力と、複合語Aの概念Cの提示を実現する。
インターネット・サーバZは、通信ネットワークを介して文書解析システムYを実装した分析実施者Bの持つPC端末と接続されている。インターネット・サーバZは、文書解析システムYからの単語の一般概念情報Cgの問い合わせに対し、単語の概念分類や用法に関連する一般概念情報Cgの検索を可能にする装置である。
図5と図1との対応関係について説明する。
単語分析部20と、構成語支配度算出部30と、複合語概念推定部40とは、文書解析システムY内に含まれている。文書入力部10は、PC端末の入力部として、単語概念出力部90は、PC端末の出力部として動作する。概念データベース110はインターネット・サーバZ内に含まれている。
この様な手段を備えた文書解析システムY、インターネット・サーバZは以下のような動作をする。
文書解析システムYは、入力部から、分析実施者Bが含まれる意味的に未知な複合語の概念を推定したい文書群を構成する文書Dの入力を受け付ける。そして、文書解析システムYは、文書Dを構成する文書の全ての文章毎に形態素解析および構文解析を適用し、文書を構成する単語に分解し、各単語の品詞とその係り受け関係を解析することで、名詞および該名詞に係る動詞と形容詞を単語Wi(i=1、2、・・・、n)として抽出する。なお、動詞の内でサ行変格活用に属する動詞は活用部分を除去しいわゆるサ変名詞として抽出する。
インターネット・サーバZは、単語の一般的な上位/下位関係、部分/全体関係、同義関係、類義関係などによって単語を分類し、体系づけたシソーラスとして一般概念情報Cgを蓄積する。また、インターネット・サーバZは、任意の単語の情報を抽出する検索エンジンなどの機能も提供することで、文書解析システムYからの問い合わせに応じて、問い合わせ対象の単語の一般的な概念分類を一般概念情報Cgとして抽出し、提示する。
次に、文書解析システムYは、各単語Wiのそれぞれの一般概念情報Cgについてインターネット・サーバZに問い合わせを行うことで、インターネット・サーバZ内に保存されたシソーラスに、各単語Wiの一般概念情報Cgが登録されているかどうかを検索し、シソーラスに一般概念情報Cgの登録が無く、かつ文字数が2文字以上の単語を複合語Mj(j=1、2、・・・、m)として抽出する。例えば「追加変更」という単語がシソーラスに登録されていない場合は、2文字以上であるため複合語として抽出する。
さらに文書解析システムYは、複合語Mj毎に複合語Mjの文字列をあらゆるパターンで分離し、分離した全ての部分文字列について、インターネット・サーバZ内に保存されたシソーラスに一般概念情報Cgが登録されているかどうかを検索し、一般概念情報の登録がない部分文字列の文字数が最も少なくなるパターンでの、l個の部分文字列を複合語Mjの構成語Pjk(k=1、2、・・・、l)として、構成語Pjkの内、インターネット・サーバZに一般概念情報Cgの登録が有る部分文字列は有意構成語Pajk、登録が無い部分文字列は不明構成語Pbjkとして抽出し、さらに有意構成語Pajkの一般概念情報Cgを構成語概念Cajkとして取得する。先の「追加変更」という複合語の例では、{「追」、「加変更」}、{「追加」、「変更」}、{「追加変」、「更」}が分離可能な文字列として想定され、「加変更」と「追加変」がシソーラスに登録されていない場合は、「追」、「追加」、「変更」、「更」が有意構成語Pajkの候補、「加変更」、「追加変」が不明構成語Pbjkの候補となるが、一般概念情報Cgの登録がない部分文字列の文字数が最も少ない{「追加」、「変更」}の組合せが複合語「追加変更」の有意構成語として選択される。
文書解析システムYは、「構築する情報システムの機能」など文書Dで一定の範囲の内容に言及している文章群として分析者Bが指定した段落の文章内で複合語Mjと共起する名詞、および複合語Mjに係る動詞と形容詞をs個の共起語Wcjr(r=1、2、・・・、s)として、複合語Mj毎に共起語Wcjrと、共起とみなした範囲内での共起回数Fjrを抽出し、各行を各複合語Mjに、各列を各共起語Wcjrに対応させ、複合語Mjに対する共起語Wcjrの共起回数fjrを各値として登録した疎行列からなる共起表Tを作成する。さらに、文書解析システムYは、上記共起表Tの各構成語Pjk別に、同じ構成語Px(x=1、2、・・・、t)を含むt個の複合語Mxの行成分(fx1,fx2,fx3,・,・,・,fxs)を抽出し、各行成分を各複合語Mxに、各列を各共起語Wcxrに対応させ、複合語Mxに対する共起語Wcxrの共起回数fxrを各値として登録した疎行列からなる部分一致複合語共起表Txを作成する。例えば「システム」という構成語を含む部分一致複合語共起表としては図6、「変更」という構成語を含む部分一致複合語共起表としては図7のような表が作成される。さらに、文書解析システムYは、以下の数1のように、部分一致複合語共起表Txの共起語Wcxr毎のデータ列(f1r,f2r,f3r,・,・,・,ftr)で分散σxrを算出し、全共起語Wcxrの分散σxrの平均値の平方根の逆数を構成語Pxの構成語支配度Gxとして算出する。
Figure 0005720071
なお、複合語Mjの構成語に不明構成語Pbjkが有る場合は、不明構成語Pbjkの文字列を新概念Cbjkとする。
また文書解析システムYは、複合語Mj毎の構成語Pjkに対応する各構成語支配度Gxjkの値を構成語支配度Gxjkの総和で除すことで正規化した概念重み付け係数αjkを算出する。さらに文書解析システムYは、複合語Mj毎に上記構成語概念Cajkおよび新概念Cbjkに基づき、定量概念表Tqjを作成する。定量概念表Tqjは、複合語Mj毎に作られ、構成語Pjkに対応する、各構成語概念Cajkもしくは新概念Cbjkと、概念重み付け係数αjkを各値として登録した表である。例えば、複合語「システム変更」に関して、構成語「システム」の構成語支配度Gxが1.47でシソーラスでの概念が「装置」、構成語「変更」の構成語支配度Gxが2.21でシソーラスでの概念が「修正」であった場合、定量概念表は図8のようになる。図8は、複合語「システム変更」の概念を構成語「変更」と構成語「システム」の合成概念Cjとして理解する場合、構成語「変更」の方が構成語「システム」よりも重要であることを示している。
文書解析システムYは推定した定量概念表Tqjを全ての複合語Mjについて集約し、複合語Mjの合成概念Cjを表現する用語集として出力する。
次に、図9を参照して、具体的な第2の実施例を用いて、本発明の第2の実施形態に係る複合語概念分析システム100Aの動作を説明する。
本第2の実施例では、複合語概念分析システム100Aは、図9に示されるように、インターネット・サーバZ’を利用するものとする。
文書解析システムYは、分析実施者Bの持つPC端末上で動作し、入力部及び出力部を介して、分析実施者Bが意味的に未知な複合語や複数の概念を持つ単語を含む文書群の入力と、単語Wおよび複合語Aの概念Cの提示を実現する。
インターネット・サーバZ’は、既存のシソーラスを提供するサーバであり、通信ネットワークを介して文書解析システムYを実装した分析実施者Bの持つPC端末と接続されている。インターネット・サーバZ’は、文書解析システムYからの単語の一般概念情報Cgの問い合わせに対し、単語の概念分類である一般概念情報Cgの検索を可能にする装置である。
本第2の実施例では、第1の実施例の動作に加え、文書解析システムYaが概念候補抽出部50、概念分布抽出部60、概念重複度算出部70、利用概念推定部80を含む。すなわち、図3と図5との対応関係は次のように成る。
単語分析部20と、構成語支配度算出部30と、複合語概念推定部40、概念候補抽出部50と、概念分布抽出部60と、概念重複度算出部70と、利用概念推定部80とは、文書解析システムY内に含まれている。文書入力部10は、PC端末の入力部として、単語概念出力部90Aは、PC端末の出力部として動作する。概念データベース110はインターネット・サーバZ’内に含まれている。
この様な構成を含めた文書解析システムYaは、上述した第1の実施例に対して、以下のような動作を加える。
文書解析システムYaは、文書Dで分析者Bが指定した段落内で利用される単語で、名詞および該名詞に係る動詞と形容詞からなる単語Wiの内、複合語Mj以外の単語Wiについて、インターネット・サーバZ’内に保存されたシソーラスの一般概念情報Cgに問い合わせを行うことで、各単語Wiに紐付く一般概念情報Cgを抽出し、単語に対して帰属する概念が1つに定まる単語を概念確定単語Ws、複数の概念に帰属する単語を概念不確定単語Wmとして分類するとともに、概念確定単語Ws毎に紐付いた概念を確定概念Cs、概念不確定単語Wm毎に紐付いたJ個の概念のセットを概念候補Cmとして抽出する。
文書解析システムYaは、複合語Mj、概念確定単語Wsと概念不確定単語Wmについて、上記段落内での出現数Hを用いて、合成概念Cjの場合は各構成語概念Cajkもしくは新概念Cbjkに対応する概念重み付け係数αjkを用いて概念重み付け係数αjk×出現数Hを、確定概念Csの場合は出現数Hを、概念候補Cmの場合は出現数H/候補数Jを、出現量Iとして算出し、複合語Mjについては紐づいた構成語概念Cajkもしくは新概念Cbjk、概念確定単語Wsについては確定概念Cs、概念不確定単語Wmについては概念候補Cmと対応付けることで、上記段落の範囲における概念分布表Rを作成する。ここで、概念分布表Rとは各行が各複合語Mj、概念確定単語Ws、概念不確定単語Wmに、各列が構成語概念Cajkもしくは新概念Cbjk、確定概念Cs、概念候補Cmに対応した行列で、上記段落の範囲内での単語Wiに対する概念の出現量Iを表の各値として登録したものである。例えば、ある段落で「変更内容」、「機能」、「総務システム」、「資材システム」、「改造」、「機器」という単語が用いられ、「変更内容」、「総務システム」、「資材システム」がシソーラスに概念の登録が無い場合、これらの単語は複合語に分類される。さらに、構成語として「変更」、「内容」、「総務」、「システム」、「資材」が抽出され、各複合語における構成語の概念重み付け係数αが{変更:内容=0.88:0.12}、{総務:システム=0.91:0.09}、{資材:システム=0.84:0.16}で、「変更」の概念分類が{修正、転換}の2つ、「内容」の概念分類が{成分、本質、機構}の3つ、「機能」の概念分類が{仕事、能力、機構、作用}の4つ、「総務」の概念分類が{部門、仕事}の2つ、「システム」の概念分類が{装置、制度、体系}の3つ、「資材」の概念分類が{材料、部門}の2つ、「改造」の概念分類が{修正}、「機器」の概念分類が{装置、道具}の2つだった場合、「改造」が概念確定単語、「機能」、「機器」が概念不確定単語に、「変更内容」、「総務システム」、「資材システム」が概念不確定単語を含む複合語に分類され、概念分布表Rは図10のようになる。
次に、文書解析システムYaは、概念分布表Rに基づき、上記段落内での構成語概念Cajkもしくは新概念Cbjk、確定概念Cs、概念候補Cm毎の出現量Iを累積することで、各概念の概念重複度Xを算出する。図10の例では、{部門}という概念の概念重複度は、対象段落内で2回用いられた複合語「総務システム」における構成語「総務(概念重み付け係数α=0.91)」と、4回用いられた複合語「資材システム」における構成語「資材(概念重み付け係数α=0.84)」と紐付いており、0.91×2+0.84×4=5.18のように算出される。
文書解析システムYaは、概念重複度Xに基づき各概念不確定単語Wmの概念候補Cm間の概念重複度Xを比較し、最も概念重複度Xの高い概念候補Cmを利用可能性の高い概念として各概念不確定単語Wmの利用概念Cm‘として推定する。図10の例では、概念不確定単語「機器」の概念候補{装置}、{道具}の概念重複度はそれぞれ{装置=3.82}、{道具=3}であるため{装置}が選択される。また、概念不確定単語の構成語からなる複合語「総務システム」の構成語「総務」の概念候補{部門}、{仕事}の概念重複度はそれぞれ{部門=5.18}、{仕事=3.82}、であるため{部門}が、構成語「システム」の概念候補{装置}、{制度}、{体系}の概念重複度はそれぞれ{装置=3.82}、{制度=0.82}、{体系=0.82}であるため{装置}が選択される。
文書解析システムYは、複合語Mjに関する概念定量概念表Tqjの行に複合語Mj以外の単語Wiを加え、列に対応させる概念を利用概念Cm‘とした概念定量概念表Tqj’を、単語Wiの概念Cを表現する用語集として出力する。
以上説明したように、本発明の複合語概念分析システムによれば、特定の領域の文書内でのみ利用されている意味的に未知な複合語の概念を推定できる。その理由は、複合語の共起語による共起ベクトルを算出し、同じ構成語を持つ複合語間の共起ベクトルの距離に基づく集約度を構成語の重み付けに利用することで、複合語毎に適切な重み付けを実現するためである。
また、本発明の具体的な構成は前述の実施の形態に限られるものではなく、この発明の要旨を逸脱しない範囲の変更があってもこの発明に含まれる。
本発明によれば、情報システム構築に関する提案書や仕様書といった専門領域での複合語の多い各種文書に関して、文書中の複合語の概念を推定することで文書の理解・作成・修正を支援することが可能になり、やり取りされる各種文書手戻りの減少や顧客満足の向上などシステム開発の効率化に関する用途に適用できる。また、複合語を精度よく抽出できるので、翻訳システムに用いて訳し分けに利用できる。
10 文書入力部
20 単語分析部
30 構成語支配度算出部
40 複合語概念推定部
50 概念候補抽出部
60 概念分布抽出部
70 概念重複度算出部
80 利用概念推定部
90、90A 単語概念出力部
100、100A 複合語概念分析システム
110 概念データベース
D 要求文書
A 複合語
C 概念
Y、Ya 文書解析システム
Z、Z’ インターネット・サーバ

Claims (22)

  1. 対象とする文書もしくは文書群の入力を受け付ける文書入力部と、単語の概念情報を収集して蓄積した概念データベースと、文書もしくは文書群に使用されている単語と複合語および複合語を構成する構成語を抽出し、複合語を構成する各構成語の概念情報について、概念データベースに問い合わせ、概念情報として取得する単語分析部と、複合語毎に、任意の範囲内で、同じ構成語を含む部分一致複合語と共起する共起語の種類と共起数について抽出し、構成語別に各部分一致複合語間の共起パターンの集約度を表す構成語支配度を算出する構成語支配度算出部と、各構成語の概念情報に各構成語支配度で重み付けを与えることで、重み付けされた複数の概念の合成概念として未知の複合語の概念を推定する複合語概念推定部と、前記複合語の合成概念を出力する単語概念出力部と、を備えたことを特徴とする複合語概念分析システム。
  2. 対象とする文書もしくは文書群の入力を受け付ける文書入力部と、単語の概念分類を含む概念情報を収集して蓄積した概念データベースと、文書もしくは文書群を構成する文章に使用されている各単語の抽出および単語毎の品詞や格、組み合される助詞、単語間の係り受け関係に関する単語情報を抽出し、概念データベースに各単語の概念情報を問い合わせ、概念データベースに登録が無く、かつ複数の文字からなる単語を複合語として抽出し、複合語を構成するあらゆる部分文字列について、概念データベースに概念情報を問い合わせ、概念情報の登録がある部分文字列を複合語の有意構成語として抽出し、抽出した有意構成語を元の複合語から分離した場合に概念データベースに概念情報の登録が無い部分文字列が残る場合は不明構成語として抽出し、さらに有意構成語の概念情報を概念情報として取得する単語分析部と、複合語毎に共起する各共起語の共起数を集計し、同じ構成語を含む部分一致複合語の各共起語の共起数を抽出することで、構成語別に各部分一致複合語間の集約度を構成語支配度として算出する構成語支配度算出部と、複合語の構成語に不明構成語が含まれる場合は不明構成語自体を概念とみなし、各複合語と、前記複合語の各構成語と紐付く概念との対応関係として各構成語支配度に基づく各概念の重み付け係数を登録した定量概念表を作成し、重み付けされた複数の概念の合成概念として未知の複合語の概念を推定する複合語概念推定部と、前記複合語の合成概念を出力する単語概念出力部と、を備えたことを特徴とする複合語概念分析システム。
  3. 対象とする文書もしくは文書群の入力を受け付ける文書入力部と、単語の概念分類、同義語、類義語、用法といった単語の一般概念を体系付けた概念情報を収集して蓄積した概念データベースと、文書もしくは文書群を構成する文章に使用されている各単語の抽出および単語毎の品詞や格、組み合される助詞、単語間の係り受け関係に関する単語情報を抽出し、概念データベースに各単語の概念情報を問い合わせ、概念データベースに登録が無く、かつ複数の文字からなる単語を複合語として抽出し、複合語を構成するあらゆる部分文字列について、概念データベースに概念情報を問い合わせ、概念情報の登録がある部分文字列を複合語の有意構成語として抽出し、抽出した有意構成語を元の複合語から分離した場合に概念データベースに概念情報の登録が無い部分文字列が残る場合は不明構成語として抽出し、さらに有意構成語の概念情報を概念情報として取得する単語分析部と、複合語毎に共起する各共起語の共起数を集計し、同じ構成語を含む部分一致複合語の各共起語の共起数を抽出することで、構成語別に各部分一致複合語間の集約度を構成語支配度として算出する構成語支配度算出部と、複合語の構成語に不明構成語が含まれる場合は不明構成語自体を概念とみなし、各複合語と、前記複合語の各構成語と紐付く概念との対応関係として各構成語支配度に基づく各概念の重み付け係数を登録した定量概念表を作成し、重み付けされた複数の概念の合成概念として未知の複合語の概念を推定する複合語概念推定部と、前記単語の内、複合語に分類されなかった単語の概念情報を概念データベースに問い合わせ、単語と概念を紐付け、単語に対して帰属する概念が1つに定まる単語を概念確定単語、複数の概念に帰属する単語を概念不確定単語として分類するとともに、概念確定単語毎に紐付いた概念を確定概念、概念不確定単語毎に紐付いた複数の概念を概念候補として抽出する概念候補抽出部と、前記複合語、概念確定単語、概念不確定単語について、それぞれの単語の出現数と、紐づいた合成概念、確定概念および概念候補を抽出し、対応付けた概念分布表を作成する概念分布抽出部と、合成概念、確定概念、概念候補毎の出現量を累積することで、合成概念、確定概念、概念候補毎の重複度である概念重複度を算出する概念重複度算出部と、概念重複度に基づき各概念不確定単語の概念候補間の概念重複度を比較し、最も概念重複度の高い概念候補を各概念不確定単語の利用概念として抽出する利用概念推定部と、複合語の合成概念、確定概念、および利用概念を出力する単語概念出力部と、を備えたことを特徴とする複合語概念分析システム。
  4. 前記単語分析部が、複合語を構成する部分文字列の内、概念データベースに概念情報の登録がある部分文字列の組合せパターンが複数考えられる場合は、不明構成語の文字数が最も少なくなる組合せパターンを判定し、その組合せパターンでの有意構成語、不明構成語を抽出することを特徴とする請求項1乃至3のいずれか1項に記載の複合語概念分析システム。
  5. 構成語支配度算出部が、品詞が動詞であれば係り受け関係が有る単語、名詞であれば同一段落内の単語のように品詞毎に共起と見なす範囲および条件を変えて共起語の抽出および共起数の算出を行う、ことを特徴とする請求項1乃至4のいずれか1項に記載の複合語概念分析システム。
  6. 前記構成語支配度算出部における部分一致複合語間の集約度が、各部分一致複合語に対応するベクトル間の散らばりの小ささを表す指標としてばらつきを示す指標と単調減少の関係にある関数で算出される、ことを特徴とする請求項1乃至5のいずれか1項に記載の複合語概念分析システム。
  7. 前記構成語支配度算出部における部分一致複合語間の集約度が、共起語の品詞によって重み付けを行ったベクトル空間に基づいて算出される、ことを特徴とする請求項1乃至6のいずれか1項に記載の複合語概念分析システム。
  8. 前記複合語概念推定部が、複合語の各構成語の構成語支配度を複合語毎の構成語支配度の総和で除すことで、正規化した重み付け係数を算出する、ことを特徴とする請求項1乃至7のいずれか1項に記載の複合語概念分析システム。
  9. 前記概念分布抽出部における概念候補の出現量が、合成概念の場合は各概念の重み付け値と出現数の積を、確定概念の場合は出現数を、概念候補の場合は出現数を候補となる概念数で除すことで算出される、ことを特徴とする請求項3乃至8のいずれか1項に記載の複合語概念分析システム。
  10. 前記概念重複度算出部における概念重複度が、複合語、概念確定単語および概念不確定単語に重みを与えた出現量の総和として算出される、ことを特徴とする請求項3乃至9のいずれか1項に記載の複合語概念分析システム。
  11. 対象とする文書もしくは文書群の入力を受け付ける受付工程と、文書もしくは文書群に使用されている単語と複合語および複合語を構成する構成語を抽出し、複合語を構成する各構成語の概念情報について単語の概念情報を収集して蓄積した概念データベースに問い合わせ、概念情報として取得する取得工程と、複合語毎に、任意の範囲内で、同じ構成語を含む部分一致複合語と共起する共起語の種類と共起数について抽出し、構成語別に各部分一致複合語間の共起パターンの集約度を表す構成語支配度を算出する構成語支配度算出工程と、各構成語の概念情報に各構成語支配度で重み付けを与えることで、重み付けされた複数の概念の合成概念として未知の複合語の概念を推定する推定工程と、前記複合語の合成概念を出力する出力工程と、を含むことを特徴とする要求文書分析方法。
  12. 対象とする文書もしくは文書群の入力を受け付ける受付工程と、文書もしくは文書群を構成する文章に使用されている各単語の抽出および単語毎の品詞や格、組み合される助詞、単語間の係り受け関係に関する単語情報を抽出し、単語の概念分類を含む概念情報を収集して蓄積した概念データベースに各単語の概念情報を問い合わせ、概念データベースに登録が無く、かつ複数の文字からなる単語を複合語として抽出し、複合語を構成するあらゆる部分文字列について、概念データベースに概念情報を問い合わせ、概念情報の登録がある部分文字列を複合語の有意構成語として抽出し、抽出した有意構成語を元の複合語から分離した場合に概念データベースに概念情報の登録が無い部分文字列が残る場合は不明構成語として抽出し、さらに有意構成語の概念情報を概念情報として取得する取得工程と、複合語毎に共起する各共起語の共起数を集計し、同じ構成語を含む部分一致複合語の各共起語の共起数を抽出することで、構成語別に各部分一致複合語間の集約度を構成語支配度として算出する構成語支配度算出工程と、複合語の構成語に不明構成語が含まれる場合は不明構成語自体を概念とみなし、各複合語と、前記複合語の各構成語と紐付く概念との対応関係として各構成語支配度に基づく各概念の重み付け係数を登録した定量概念表を作成し、重み付けされた複数の概念の合成概念として未知の複合語の概念を推定する推定工程と、前記複合語の合成概念を出力する出力工程と、を含むことを特徴とする要求文書分析方法。
  13. 対象とする文書もしくは文書群の入力を受け付ける受付工程と、文書もしくは文書群を構成する文章に使用されている各単語の抽出および単語毎の品詞や格、組み合される助詞、単語間の係り受け関係に関する単語情報を抽出し、単語の概念分類、同義語、類義語、用法といった単語の一般概念を体系付けた概念情報を収集して蓄積した概念データベースに各単語の概念情報を問い合わせ、概念データベースに登録が無く、かつ複数の文字からなる単語を複合語として抽出し、複合語を構成するあらゆる部分文字列について、概念データベースに概念情報を問い合わせ、概念情報の登録がある部分文字列を複合語の有意構成語として抽出し、抽出した有意構成語を元の複合語から分離した場合に概念データベースに概念情報の登録が無い部分文字列が残る場合は不明構成語として抽出し、さらに有意構成語の概念情報を概念情報として取得する取得工程と、複合語毎に共起する各共起語の共起数を集計し、同じ構成語を含む部分一致複合語の各共起語の共起数を抽出することで、構成語別に各部分一致複合語間の集約度を構成語支配度として算出する構成語支配度算出工程と、複合語の構成語に不明構成語が含まれる場合は不明構成語自体を概念とみなし、各複合語と、前記複合語の各構成語と紐付く概念との対応関係として各構成語支配度に基づく各概念の重み付け係数を登録した定量概念表を作成し、重み付けされた複数の概念の合成概念として未知の複合語の概念を推定する推定工程と、前記単語の内、複合語に分類されなかった単語の概念情報を概念データベースに問い合わせ、単語と概念を紐付け、単語に対して帰属する概念が1つに定まる単語を概念確定単語、複数の概念に帰属する単語を概念不確定単語として分類するとともに、概念確定単語毎に紐付いた概念を確定概念、概念不確定単語毎に紐付いた複数の概念を概念候補として抽出する概念候補抽出工程と、前記複合語、概念確定単語、概念不確定単語について、それぞれの単語の出現数と、紐づいた合成概念、確定概念および概念候補を抽出し、対応付けた概念分布表を作成する作成工程と、合成概念、確定概念、概念候補毎の出現量を累積することで、合成概念、確定概念、概念候補毎の重複度である概念重複度を算出する概念重複度算出工程と、概念重複度に基づき各概念不確定単語の概念候補間の概念重複度を比較し、最も概念重複度の高い概念候補を各概念不確定単語の利用概念として抽出する利用概念抽出工程と、複合語の合成概念、確定概念、および利用概念を出力する出力工程と、を含むことを特徴とする要求文書分析方法。
  14. 前記取得工程が、複合語を構成する部分文字列の内、概念データベースに概念情報の登録がある部分文字列の組合せパターンが複数考えられる場合は、不明構成語の文字数が最も少なくなる組合せパターンを判定し、その組合せパターンでの有意構成語、不明構成語を抽出することを特徴とする請求項11乃至13のいずれか1項に記載の要求文書分析方法。
  15. 前記構成語支配度算出工程が、品詞が動詞であれば係り受け関係が有る単語、名詞であれば同一段落内の単語のように品詞毎に共起と見なす範囲および条件を変えて共起語の抽出および共起数の算出を行う、ことを特徴とする請求項11乃至14のいずれか1項に記載の要求文書分析方法。
  16. 前記構成語支配度算出工程における部分一致複合語間の集約度が、各部分一致複合語に対応するベクトル間の散らばりの小ささを表す指標としてばらつきを示す指標と単調減少の関係にある関数で算出される、ことを特徴とする請求項11乃至15のいずれか1項に記載の要求文書分析方法。
  17. 前記構成語支配度算出工程における部分一致複合語間の集約度が、共起語の品詞によって重み付けを行ったベクトル空間に基づいて算出される、ことを特徴とする請求項11乃至16のいずれか1項に記載の要求文書分析方法。
  18. 前記推定工程が、複合語の各構成語の構成語支配度を複合語毎の構成語支配度の総和で除すことで、正規化した重み付け係数を算出する、ことを特徴とする請求項11乃至17のいずれか1項に記載の要求文書分析方法。
  19. 前記作成工程における概念候補の出現量が、合成概念の場合は各概念の重み付け値と出現数の積を、確定概念の場合は出現数を、概念候補の場合は出現数を候補となる概念数で除すことで算出される、ことを特徴とする請求項13乃至18のいずれか1項に記載の要求文書分析方法。
  20. 前記概念重複度算出工程における概念重複度が、複合語、概念確定単語および概念不確定単語に重みを与えた出現量の総和として算出される、ことを特徴とする請求項13乃至19のいずれか1項に記載の要求文書分析方法。
  21. 請求項11乃至20のいずれか一項に記載の要求文書分析方法をコンピュータによって実現するためのプログラム。
  22. 請求項21に記載のプログラムを記録したコンピュータ読み取り可能な記憶媒体。
JP2011152897A 2011-07-11 2011-07-11 複合語概念分析システム、方法およびプログラム Active JP5720071B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011152897A JP5720071B2 (ja) 2011-07-11 2011-07-11 複合語概念分析システム、方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011152897A JP5720071B2 (ja) 2011-07-11 2011-07-11 複合語概念分析システム、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2013020427A JP2013020427A (ja) 2013-01-31
JP5720071B2 true JP5720071B2 (ja) 2015-05-20

Family

ID=47691804

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011152897A Active JP5720071B2 (ja) 2011-07-11 2011-07-11 複合語概念分析システム、方法およびプログラム

Country Status (1)

Country Link
JP (1) JP5720071B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7147625B2 (ja) * 2019-02-21 2022-10-05 日本電信電話株式会社 同義語抽出装置、同義語抽出方法、および、同義語抽出プログラム
JP6938569B2 (ja) * 2019-07-01 2021-09-22 ヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2583386B2 (ja) * 1993-03-29 1997-02-19 日本電気株式会社 キーワード自動抽出装置
JPH09128396A (ja) * 1995-11-06 1997-05-16 Hitachi Ltd 対訳辞書作成方法
JP2007034410A (ja) * 2005-07-22 2007-02-08 Oki Electric Ind Co Ltd 辞書情報作成装置

Also Published As

Publication number Publication date
JP2013020427A (ja) 2013-01-31

Similar Documents

Publication Publication Date Title
US20210109958A1 (en) Conceptual, contextual, and semantic-based research system and method
Gambhir et al. Recent automatic text summarization techniques: a survey
JP5754019B2 (ja) 同義語抽出システム、方法およびプログラム
US8090724B1 (en) Document analysis and multi-word term detector
JP5754018B2 (ja) 多義語抽出システム、多義語抽出方法、およびプログラム
US20180232443A1 (en) Intelligent matching system with ontology-aided relation extraction
US8095581B2 (en) Computer-implemented patent portfolio analysis method and apparatus
WO2011078186A1 (ja) 文書クラスタリングシステム、文書クラスタリング方法および記録媒体
US20130018824A1 (en) Sentiment classifiers based on feature extraction
Trappey et al. An R&D knowledge management method for patent document summarization
CN112632228A (zh) 一种基于文本挖掘的辅助评标方法及系统
Höffner et al. CubeQA—question answering on RDF data cubes
JP5057474B2 (ja) オブジェクト間の競合指標計算方法およびシステム
WO2014002775A1 (ja) 同義語抽出システム、方法および記録媒体
CN111221968A (zh) 基于学科树聚类的作者消歧方法及装置
Siklósi Using embedding models for lexical categorization in morphologically rich languages
Al-Smadi et al. Leveraging linked open data to automatically answer Arabic questions
RU2718978C1 (ru) Способ управления автоматизированной системой правовых консультаций
JP5720071B2 (ja) 複合語概念分析システム、方法およびプログラム
JPWO2016067396A1 (ja) 文の並び替え方法および計算機
CN110688559A (zh) 一种检索方法及装置
Albukhitan et al. Arabic ontology learning from un-structured text
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
Lu et al. Attributed rhetorical structure grammar for domain text summarization
Weng et al. A study on searching for similar documents based on multiple concepts and distribution of concepts

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140709

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20140709

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150305

R150 Certificate of patent or registration of utility model

Ref document number: 5720071

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250