JP2021026586A

JP2021026586A - 用語辞書作成装置、用語辞書作成方法、及びプログラム

Info

Publication number: JP2021026586A
Application number: JP2019145119A
Authority: JP
Inventors: 祐二新井; Yuji Arai
Original assignee: Maeda Corp
Current assignee: Maeda Corp
Priority date: 2019-08-07
Filing date: 2019-08-07
Publication date: 2021-02-22
Anticipated expiration: 2039-08-07
Also published as: JP7361525B2

Abstract

【課題】精度の高い用語辞書を容易に作成する用語辞書作成装置、用語辞書作成方法及びプログラムを提供する。【解決手段】用語辞書作成装置の実行手段１０２は、文書に対し、形態素解析を実行する。取得手段１０３は、文書から抽出された形態素に基づいて、文書の中で名詞が連続する部分を用語候補として取得する。計算手段１０４は、用語候補の出現頻度を計算する。作成手段１０８は、用語候補の出現頻度に基づいて、用語辞書を作成する。【選択図】図３

Description

本発明は、用語辞書作成装置、用語辞書作成方法、及びプログラムに関する。

従来、所定の言語で記述された文書をコンピュータに解析させる技術が検討されている。例えば、特許文献１には、複数の文書の各々の組み合わせについて、所定の長さ以上の共通部分文字列を抽出することによって、形態素解析や用語辞書を用いなくても、複合語などの長い文字列に基づいて文書間の関連付けを行う技術が記載されている。また例えば、非特許文献１には、文書に含まれる文字列の出現頻度に加えて、出現集中を示す統計量を用いることによって、用語辞書を用いなくても、文書からキーワードを抽出する技術が記載されている。

特許第５１０６０４２号公報

梅村恭司、未踏テキスト情報中のキーワードの抽出システム開発、https://www.ipa.go.jp/files/000005543.pdf

しかしながら、特許文献１及び非特許文献１の各々の技術では、複数の名詞が連続した長い用語が新たに登場したとしても、文書間の関連付けをしたりキーワードとして抽出したりすることができるが、これらの技術は、何れも用語辞書を用いないことを前提としている。もし仮に、新たに登場した長い用語の用語辞書があれば、特許文献１及び非特許文献１のような複雑な処理を実行する必要がなくなり、比較的簡易な処理によって精度の高い処理結果を得ることができるようになる。この点、精度の高い用語辞書を準備しようとすると、専門家が文書を読み込んで手動で用語辞書を作成する必要があり、用語辞書を定期的に更新する必要もあるので、非常に手間がかかる。

本発明は上記課題に鑑みてなされたものであって、その目的は、精度の高い用語辞書を容易に作成することが可能な用語辞書作成装置、用語辞書作成方法、及びプログラムを提供することである。

上記課題を解決するために、本発明の一態様に係る用語辞書作成装置は、文書に対し、形態素解析を実行する実行手段と、前記文書から抽出された形態素に基づいて、前記文書の中で名詞が連続する部分を用語候補として取得する取得手段と、前記用語候補の出現頻度を計算する計算手段と、前記用語候補の出現頻度に基づいて、用語辞書を作成する作成手段と、を含むことを特徴とする。

本発明の一態様に係る用語辞書作成方法は、文書に対し、形態素解析を実行する実行ステップと、前記文書から抽出された形態素に基づいて、前記文書の中で名詞が連続する部分を用語候補として取得する取得ステップと、前記用語候補の出現頻度を計算する計算ステップと、前記用語候補の出現頻度に基づいて、用語辞書を作成する作成ステップと、を含むことを特徴とする。

本発明の一態様に係るプログラムは、文書に対し、形態素解析を実行する実行手段と、前記文書から抽出された形態素に基づいて、前記文書の中で名詞が連続する部分を用語候補として取得する取得手段と、前記用語候補の出現頻度を計算する計算手段と、前記用語候補の出現頻度に基づいて、用語辞書を作成する作成手段と、としてコンピュータを機能させる。

また、本発明の一態様では、前記取得手段は、前記文書から抽出された形態素が順番に並ぶリストを、名詞以外の品詞の形態素に基づいて分割し、前記リストにおける分割部分の全部又は一部を、前記用語候補として取得する、ことを特徴とする。

また、本発明の一態様では、前記取得手段は、前記分割部分ごとに、語順を保つ名詞の組み合わせの全てを、前記用語候補として特定する、ことを特徴とする。

また、本発明の一態様では、前記用語辞書作成装置は、前記文書とは異なる他の文書に、前記用語候補が出現するか否かを判定する判定手段を更に含み、前記作成手段は、前記用語候補の出現頻度と、前記判定手段の判定結果と、に基づいて、前記用語辞書を作成する、ことを特徴とする。

また、本発明の一態様では、前記判定手段は、前記他の文書における前記用語候補の最長一致を判定し、前記作成手段は、前記判定手段による最長一致の判定結果に基づいて、前記用語辞書を作成する、ことを特徴とする。

また、本発明の一態様では、前記用語辞書作成装置は、複数の前記文書の各々の文字数に基づいて、前記複数の文書の中から、前記用語候補の抽出対象となる文書を選択する選択手段を更に含み、前記実行手段は、前記選択手段により選択された文書に対し、形態素解析を実行し、前記取得手段は、前記選択手段により選択された文書の中から、前記用語候補を取得する、ことを特徴とする。

また、本発明の一態様では、前記用語辞書作成装置は、前記文書のうち、所定長未満の用語が前記用語辞書に登録されることを制限する第１制限手段を更に含み、前記作成手段は、前記所定長以上の前記用語候補を、前記用語辞書に登録する、ことを特徴とする。

また、本発明の一態様では、前記用語辞書作成装置は、前記文書のうち、数詞を含む用語が前記用語辞書に登録されることを制限する第２制限手段を更に含み、前記作成手段は、前記数詞を含む用語ではない前記用語候補を、前記用語辞書に登録する、ことを特徴とする。

また、本発明の一態様では、前記文書は、建設業における複数の工事種別の何れかに関する内容が記述されており、前記用語辞書は、建設用語が登録される辞書であり、前記作成手段は、前記工事種別ごとに、前記用語辞書を作成する、ことを特徴とする。

本発明によれば、精度の高い用語辞書を容易に作成することができる。

実施形態に係る用語辞書作成装置のハードウェア構成を示す図である。用語辞書作成装置が実行する処理の概要を示す図である。用語辞書作成装置で実現される機能の一例を示す機能ブロック図である。文書データベースのデータ格納例を示す図である。辞書データベースのデータ格納例を示す図である。用語辞書作成装置で実行される処理を示すフロー図である。

［１．用語辞書作成装置の全体構成］
以下、本発明に係る実施形態について、図面を参照しつつ説明する。図１は、実施形態に係る用語辞書作成装置のハードウェア構成を示す図である。用語辞書作成装置１０は、ユーザが操作するコンピュータであり、例えば、パーソナルコンピュータ、携帯情報端末（タブレット型コンピュータを含む）、又は携帯電話機（スマートフォンを含む）等である。図１に示すように、例えば、用語辞書作成装置１０は、制御部１１、記憶部１２、通信部１３、操作部１４、及び表示部１５を含む。

制御部１１は、少なくとも１つのプロセッサを含む。制御部１１は、記憶部１２に記憶されたプログラムやデータに従って処理を実行する。記憶部１２は、主記憶部及び補助記憶部を含む。例えば、主記憶部はＲＡＭなどの揮発性メモリであり、補助記憶部は、ハードディスクやフラッシュメモリなどの不揮発性メモリである。通信部１３は、有線通信又は無線通信用の通信インタフェースを含み、例えば、ネットワークを介してデータ通信を行う。操作部１４は、入力デバイスであり、例えば、タッチパネルやマウス等のポインティングデバイスやキーボード等である。操作部１４は、操作内容を制御部１１に伝達する。表示部１５は、例えば、液晶表示部又は有機ＥＬ表示部等である。

なお、記憶部１２に記憶されるものとして説明するプログラム及びデータは、ネットワークを介して用語辞書作成装置１０に供給されるようにしてもよい。また、用語辞書作成装置１０のハードウェア構成は、上記の例に限られず、種々のハードウェアを適用可能である。例えば、用語辞書作成装置１０は、コンピュータ読み取り可能な情報記憶媒体を読み取る読取部（例えば、光ディスクドライブやメモリカードスロット）や外部機器と直接的に接続するための入出力部（例えば、ＵＳＢ端子）を含んでもよい。この場合、情報記憶媒体に記憶されたプログラムやデータが読取部又は入出力部を介して、用語辞書作成装置１０に供給されるようにしてもよい。

［２．用語辞書作成装置の概要］
図２は、用語辞書作成装置１０が実行する処理の概要を示す図である。本実施形態の用語辞書作成装置１０は、複数の文書の各々に対して形態素解析を実行し、名詞が連続する部分である用語候補の出現頻度に基づいて、用語辞書を作成する。

文書とは、少なくとも１つの文（文章又は文字列）が格納されたファイルである。文書には、任意の数の文が含まれてよく、例えば、１〜１０程度の文が含まれていてもよいし、数十〜数万程度の文が含まれていてもよい。文書は、任意のファイル形式であってよく、いわゆるドキュメントファイルに限られない。例えば、文書は、プレーンテキスト、リッチテキスト、表計算ソフトのファイル形式、プレゼンテーション作成ソフトのファイル形式、ＨＴＭＬ形式、又はＸＭＬ形式といった任意のファイル形式であってもよい。文書は、文だけでなく、写真や表などの他の情報が含まれていてもよい。文書は、任意の言語で記述されてよく、本実施形態では、日本語とするが、英語や中国語などの他の言語であってもよい。

形態素解析とは、文書に記述された言語の文法や品詞に基づいて、文書を形態素に分割することである。形態素解析は、品詞分解と呼ばれることもある。形態素は、意味を持つ最小限の単位である。形態素は、トークン又は単語と呼ばれることもある。形態素解析では、任意の品詞に分割されてよく、例えば、名詞、動詞、形容詞、形容動詞、副詞、連体詞、接続詞、感動詞、助動詞、又は助詞といった品詞に分解される。形態素解析では、品詞だけではなく、文字であるか記号であるかといった分類が行われてもよい。形態素解析の手法自体は、公知の手法を適用可能であり、例えば、Ｍｅｃａｂと呼ばれるフリーの形態素解析エンジンが利用されてもよいし、商用のエンジンが利用されてもよい。

用語候補とは、用語辞書に登録される候補となる語である。用語候補は、用語辞書にまだ登録されていない語であってもよいし、用語辞書に登録済みの語であってもよい。用語候補は、文書に含まれる一部分であり、少なくとも１つの形態素から構成される。用語候補は、１つの形態素だけから構成されることもあるし、複数の形態素から構成されることもある。用語候補が複数の形態素から構成される場合には、互いに隣接する複数の形態素が文書における語順通りに結合したものが用語候補となる。

出現頻度とは、文書において語が出現する頻度である。別の言い方をすれば、出現頻度は、文書において語が登場する回数、又は、文書における語の一致数である。例えば、ある語をクエリにして文書全体を検索した場合のヒット数は、その語の出現頻度となる。

用語辞書とは、複数の用語が格納されたファイルである。用語辞書には、任意の数の用語が含まれてよく、例えば、数十〜数百程度の用語が格納されていてもよいし、数千〜数万程度の用語が格納されていてもよい。用語辞書は、任意の用途で利用されてよく、例えば、類似文書の検索、文書内の語同士の関連性の特定、キーワードの抽出、又は形態素解析などで利用される。用語辞書は、特定の分野に限定されない国語辞典のような汎用的な辞書であってもよいし、専門分野において用いられる専門用語が格納された辞書であってもよい。

本実施形態では、建設業における建設用語が格納される用語辞書を作成する場面を例に挙げて、用語辞書作成装置１０の処理を説明する。例えば、土木工事の施工計画書では、「交差点南中央分離帯防護柵」や「先施工部高圧噴射撹拌工」といったように、多数の名詞が連結した建設用語が使用されることが多い。更に、新規の工事が行われる場合に、その工事に応じた独自の用語が新たに生まれることもある。このような用語は、Ｍｅｃａｂなどの一般的な形態素解析を利用しても、１つの単語として特定することが難しい。

例えば、「交差点南中央分離帯防護柵」であれば、一般的な形態素解析を利用すると、「交差点」「南」「中央」「分離帯」「防護柵」といった一般的な名詞に分割され、建設用語としての意味が消失する。「先施工部高圧噴射撹拌工」も同様に、一般的な形態素解析を利用すると、「先」「施工」「部」「高圧」「噴射」「撹拌」「工」といった一般的な名詞に分割され、建設用語としての意味が消失する。これらの建設用語が一般的な名詞に分割されてしまうと、例えば、ある施工計画書と似た他の施工計画書を検索するのが難しくなる。

この点、建設業特有の用語辞書を作成し、形態素解析を行うことが考えられる。例えば、「交差点南中央分離帯防護柵」や「先施工部高圧噴射撹拌工」といった用語を用語辞書に登録しておけば、一般的な形態素解析とは異なり、これらのまとまりを１つの用語として特定することができる。

しかしながら、用語辞書は、建築や土木などの複数の専門家が文書を読み込んで手動で用語辞書を作成する必要がある。また、新規の工事の際に新たな用語が生まれることも多いので、用語辞書を定期的に更新する必要がある。例えば、「交差点南中央分離帯防護柵」や「先施工部高圧噴射撹拌工」が新たに生まれた用語であったとして、これらの用語が用語辞書に登録されていなければ、「交差点南」と「中央分離帯防護柵」に分割されたり、「先」「施工部」「高圧噴射撹拌工」に分割されたりして、１つの用語として特定できない可能性がある。このため、専門家が定期的に手動で用語辞書を更新する必要があり、非常に手間がかかる。

そこで、本実施形態では、用語辞書作成装置１０は、施工計画書などの複数の文書の中から、名詞が連続する部分を用語候補として取得し、建設業特有の用語辞書を作成するようにしている。

図２に示すように、例えば、用語辞書作成装置１０は、トンネル工事の施工計画書である文書Ｄ１に対し、一般的な形態素解析を実行し、形態素リストＬ１を作成する。形態素リストＬ１には、文書Ｄ１から抽出された形態素が語順の通りに並び、各形態素の分類を示す情報も付加される。例えば、「本」という形態素は「接頭詞」であり、「トンネル」という形態素は「名詞」であるといったように、形態素リストＬ１には、形態素ごとに、形態素と分類が関連付けられて示される。なお、本実施形態では、形態素解析の辞書に登録されていない未知語については、品詞などの分類が推定されない。

用語辞書作成装置１０は、形態素リストＬ１の中から、用語辞書に登録しない不要語を特定する。本実施形態では、（１）名詞以外の品詞、（２）名詞にサ変接続（〜される、〜した、〜する等）が結合した語、及び（３）名詞に接尾（〜さん、〜っぽい等）が結合した語の３つを不要語とするが、不要語は、予め定められた語であればよく、これらに限られない。用語辞書作成装置１０は、上記特定した不要語で形態素リストＬ１を分割し、形態素リストＬ１から不要語を除去することによって、分割後リストＬ２を作成する。分割後リストＬ２では、形態素リストＬ１で示された分類の情報も除去される。なお、形態素リストＬ１及び分割後リストＬ２の内容は、正規化されてもよい。

図２の例では、分割後リストＬ２において、不要語で区切られた分割部分を［］の記号で示している。分割部分には、少なくとも１つの名詞が並ぶ。例えば、文書Ｄ１の中に「名詞１名詞２動詞１名詞３」という並びの記述があったとする。この記述のうち、「動詞１」は不要語なので、当該記述は、［名詞１，名詞２］の分割部分と、［名詞３］の分割部分と、に分けられる。図２に示すように、分割部分には、複数の名詞が語順通りに並ぶ分割部分（例えば、［トンネル，工事］や［道路，トンネル，観測］）もあれば、１つの名詞だけから構成される分割部分（例えば、［計測］や［必須］）もある。

用語辞書作成装置１０は、分割部分の全部又は一部の語を用語候補として取得する。例えば、分割部分が１つの名詞だけから構成される場合、当該１つの名詞がそのまま用語候補となる。また例えば、分割部分が複数の名詞から構成される場合、語順を保つことを条件として、任意の組み合わせの名詞が用語候補となる。

本実施形態では、複数の名詞を含む分割部分については、語順を保つ全ての組み合わせが用語候補となる。例えば、分割部分が［名詞１，名詞２，名詞３］の場合、「名詞１」、「名詞１名詞２」、「名詞１名詞２名詞３」、「名詞２」、「名詞２名詞３」、及び「名詞３」の６つが用語候補となる。図２の例であれば、［トンネル，工事］の分割部分からは、「トンネル」、「工事」、及び「トンネル工事」の３つが用語候補となる。一方、［計測］の分割部分は、１つの名詞しかないので、そのまま「計測」が用語候補となる。

なお、用語候補が取得される文書（以降、ベースファイルということもある。）は、１つだけであってもよいが、本実施形態では、複数の文書がベースファイルとして利用される場合を説明する。図２に示すように、用語辞書作成装置１０は、ベースファイルとなる文書の各々に対し、上記説明した処理を実行し、文書名と分割後リストＬ２とを関連付けて記憶部１２に記録する。

そして、用語辞書作成装置１０は、文書ごとに、不要語を除いた部分の文字数を計算する。用語辞書作成装置１０は、最も文字数の多い文書（図２では、文書Ｄ１）の分割後リストＬ２に格納された各用語候補の出現頻度を計算し、関係辞書Ｄ２を作成する。関係辞書Ｄ２は、文書Ｄ１から取得された用語候補と、文書Ｄ１における出現頻度と、が関連付けられたデータである。関係辞書Ｄ２は、文書ごとに作成される。なお、本実施形態では、文字列長が閾値未満の用語候補については、関係辞書Ｄ２に登録されない。また、用語候補が所定の文字列の場合には、関係辞書Ｄ２に登録されないようにしてもよい。

用語辞書作成装置１０は、最も文字数が多い文書の関係辞書に格納された用語候補が、他の文書に出現するか否かを判定することによって、用語候補を用語辞書に登録するか否かを決定する。本実施形態では、用語辞書作成装置１０は、関係辞書における用語候補の最長一致を判定し、用語辞書に登録すべき用語候補を決定する。図２の関係辞書Ｄ２のデータ格納例であれば、「トンネル」、「工事」、及び「トンネル工事」は、ともに同じ分割部分から取得された用語候補なので、用語辞書作成装置１０は、これら３つの用語候補の全てが他の文書に出現する場合、最も長い用語候補である「トンネル工事」を、登録すべき用語候補として決定する。この場合、「トンネル」と「工事」については、用語辞書には登録されない。

用語辞書作成装置１０は、２番目に文字数が多い文書についても、上記と同様にして、関係辞書に格納された用語候補の最長一致を判定し、最長の用語候補を選出する。以降同様にして、用語辞書作成装置１０は、ｎ（ｎは自然数。図２の例では３以上の整数。）番目に文字数が多い文書まで、関係辞書に格納された用語候補の最長一致を判定し、最長の用語候補を選出する。用語辞書作成装置１０は、各文書から選出した用語候補のうち、出現頻度が閾値以上の用語候補を用語辞書に登録し、用語辞書の作成が完了する。

以上のように、本実施形態の用語辞書作成装置１０は、文書から抽出された形態素に基づいて、文書の中で名詞が連続する部分である用語候補を取得し、用語候補の出現頻度に基づいて、用語辞書を作成する。これにより、用語辞書作成装置１０は、複数の名詞が連続した長い用語が新たに登場したとしても、精度の高い用語辞書を容易に作成することを可能としている。以降、本技術の詳細について説明する。

［３．本実施形態で実現される機能］
図３は、用語辞書作成装置１０で実現される機能の一例を示す機能ブロック図である。図３に示すように、用語辞書作成装置１０では、データ記憶部１００、選択部１０１、実行部１０２、取得部１０３、計算部１０４、判定部１０５、第１制限部１０６、第２制限部１０７、作成部１０８、及び処理実行部１０９が実現される。

［データ記憶部］
データ記憶部１００は、記憶部１２を主として実現される。データ記憶部１００は、本実施形態で説明する処理の実行に必要なデータを記憶する。ここでは、データ記憶部１００が記憶するデータとして、文書データベースＤＢ１と、辞書データベースＤＢ２と、について説明する。

図４は、文書データベースＤＢ１のデータ格納例を示す図である。文書データベースＤＢ１は、文書が格納されるデータベースである。図４に示すように、本実施形態では、工事種別ごとに、少なくとも１つの文書が文書データベースＤＢ１に格納されている。工事種別は、工事の分類であり、例えば、建築又は土木といった大まかな分類であってもよいし、トンネル工事又はダム工事といった詳細な分類であってもよい。工事種別は、文書に記述された工事の内容に応じた種別が格納される。

建築の工事種別に関連付けられた文書には、商業施設や集合住宅などの建築工事に関する内容が記述される。例えば、商業施設や集合住宅などの施工計画書は、建築の工事種別に関連付けられて格納される。土木の工事種別に関連付けられた文書には、山岳トンネルやダムなどの土木工事に関する内容が記述される。例えば、山岳トンネルやダムなどの施工計画書は、土木の工事種別に関連付けられて格納される。文書データベースＤＢ１に格納される文書は、用語辞書を作成するユーザ等によって予め準備されており、例えば、建築会社の社内に保管されている種々の文書が文書データベースＤＢ１に格納される。

図５は、辞書データベースＤＢ２のデータ格納例を示す図である。辞書データベースＤＢ２は、後述する作成部１０８によって作成された用語辞書が格納されるデータベースである。図５に示すように、本実施形態では、工事種別ごとに、用語辞書が文書データベースＤＢ１に格納されている。図５では、各工事種別の用語辞書に登録された用語が示されている。

建築の工事種別に関連付けられた用語辞書には、商業施設や集合住宅などの建築工事に関する建設用語が格納される。当該建設用語は、例えば、商業施設や集合住宅などの施工計画書から抽出された用語である。土木の工事種別に関連付けられた用語辞書には、山岳トンネルやダムなどの土木工事に関する建設用語が格納される。当該建設用語は、例えば、山岳トンネルやダムなどの土木工事の施工計画書から抽出された用語である。用語辞書は、作成部１０８によって登録された用語だけでなく、ユーザが手動で指定した用語が登録されてもよい。

なお、データ記憶部１００に記憶されるデータは、上記の例に限られない。例えば、データ記憶部１００は、形態素解析のエンジンを記憶してもよいし、形態素解析で利用される辞書を記憶してもよい。他にも例えば、データ記憶部１００は、本実施形態で説明する閾値や不要語の定義などの他の情報を記憶してもよい。

［選択部］
選択部１０１は、制御部１１を主として実現される。選択部１０１は、文書データベースＤＢ１の中から、用語候補の抽出対象となる文書（ベースファイル）を選択する。抽出対象となる文書は、文書データベースＤＢ１に格納された全ての文書であってもよいし、ユーザにより指定された文書であってもよいが、本実施形態では、選択部１０１が、複数の文書の各々の文字数に基づいて、複数の文書の中から、用語候補の抽出対象となる文書を選択する場合を説明する。

例えば、選択部１０１は、各文書の文字数を計算し、文字数が多い順にｎ番目までの文書を、ベースファイルとして選択する。ｎの数値は、ユーザが指定してもよいし、予め定められていてもよい。本実施形態では、選択部１０１が文書から不要語を除外したうえで文字数を計算する場合を説明するが、選択部１０１は、特に不要語を除外せずに文字数を計算してもよい。なお、文字数に基づいて文書を選択する方法は、上記の例に限られず、選択部１０１は、文字数が閾値以上の文書の全てを、ベースファイルとして選択してもよい。

［実行部］
実行部１０２は、制御部１１を主として実現される。実行部１０２は、文書に対し、形態素解析を実行する。形態素解析が実行される文書は、文書データベースＤＢ１に格納された全ての文書であってもよいし、ユーザにより指定された文書であってもよいが、本実施形態では選択部１０１が実現されるので、実行部１０２は、選択部１０１により選択された文書に対し、形態素解析を実行する。

先述したように、形態素解析自体は公知の手法を適用可能であり、例えば、実行部１０２は、形態素解析用の辞書を利用して、処理対象の文書から形態素を抽出する。形態素解析で利用される辞書は、辞書データベースＤＢ２に格納された用語辞書であってもよいが、本実施形態では、一般的な形態素解析エンジンで利用される辞書とする。このため、本実施形態では、実行部１０２は、建設業の専門用語に基づいて形態素に分解するのではなく、一般的な用語に基づいて形態素に分解することになる。

実行部１０２は、１つの文書に対して形態素解析を実行してもよいが、本実施形態では、複数の文書の各々に対して形態素解析を実行する。このため、実行部１０２は、形態素解析の対象となる文書ごとに、当該文書を形態素に分解して形態素リストＬ１を作成する。また、本実施形態では、工事種別ごとに用語辞書が作成されるので、実行部１０２は、用語辞書の作成対象となる工事種別の文書に対し、形態素解析を実行する。

［取得部］
取得部１０３は、制御部１１を主として実現される。取得部１０３は、文書から抽出された形態素（例えば、形態素リストＬ１に示された形態素）に基づいて、文書の中で名詞が連続する部分（例えば、分割後リストＬ２に示された連続部分の全部又は一部）を用語候補として取得する。

名詞が連続する部分とは、形態素解析によって名詞に分類された形態素が２つ以上続く部分である。別の言い方をすれば、名詞が連続する部分は、名詞に分類された形態素の間に不要語がない部分である。例えば、名詞と名詞の間に他の語が無い部分、又は、助詞である「の」を介して複数の名詞が連続した部分は、名詞が連続する部分に相当する。即ち、「名詞１名詞２」といった部分だけでなく、「名詞１の名詞２」といった部分が、名詞が連続する部分に相当してもよい。

本実施形態では、各形態素の分類を示す情報が形態素リストＬ１に含まれているので、取得部１０３は、形態素リストＬ１中の当該情報に基づいて名詞が連続する部分を特定し、用語候補を取得する。なお、先述したように、取得部１０３は、名詞が連続する部分だけでなく名詞が１つだけの部分も、用語候補として取得する。

本実施形態では、取得部１０３は、文書から抽出された形態素が順番に並ぶ形態素リストＬ１を、名詞以外の品詞の形態素（不要語の一例）に基づいて分割し、形態素リストＬ１における分割部分の全部又は一部を、用語候補として取得する。例えば、取得部１０３は、形態素リストＬ１を参照し、不要語に該当する形態素を特定する。取得部１０３は、形態素リストＬ１を不要語で分割して不要語を除去することによって、分割部分を示す分割後リストＬ２を作成する。取得部１０３は、分割後リストＬ２に示された分割部分の全部又は一部を、用語候補として取得する。

本実施形態では、取得部１０３は、分割部分ごとに、語順を保つ名詞の組み合わせの全てを、用語候補として特定する。例えば、複数の名詞を含む分割部分については、取得部１０３は、間に他の語を挟まずに、かつ、語順通りとなるように、全ての組み合わせを特定し、各々の組み合わせを用語候補として取得する。更に、取得部１０３は、分割部分に含まれる個々の名詞も、用語候補として取得する。例えば、分割部分にｍ（ｍは２以上の整数）個の名詞が含まれていたとすると、取得部１０３は、１個以上ｍ個以下の全ての名詞の組み合わせを用語候補として取得する。また例えば、１つの名詞だけを含む分割部分については、取得部１０３は、当該１つの名詞を用語候補として取得する。

また、本実施形態では、選択部１０１によりベースファイルとなる文書が選択されるので、取得部１０３は、選択部１０１により選択された文書の中から、用語候補を取得する。即ち、取得部１０３は、文書データベースＤＢ１に格納された文書のうち、選択部１０１により選択されていない文書からは用語候補を取得せず、選択部１０１により選択された文書を、用語候補の取得対象とする。

［計算部］
計算部１０４は、制御部１１を主として実現される。計算部１０４は、用語候補の出現頻度を計算する。本実施形態では、計算部１０４は、用語候補の取得元の文書（用語候補が含まれていた文書）における出現頻度を計算する場合を説明するが、他の文書における出現頻度を計算してもよいし、これらの両方における出現頻度を計算してもよい。例えば、計算部１０４は、分割後リストＬ２から取得された用語候補ごとに、当該用語候補の取得元の文書における出現頻度を計算する。

本実施形態では、複数の文書がベースファイルとなるので、計算部１０４は、文書ごとに、当該文書から取得された用語候補の出現頻度を計算する。例えば、計算部１０４は、用語候補をクエリとし、文書の中を検索してヒット数を計算して出現頻度として取得する。その際の検索は、あいまい検索ではなく、文字列の完全一致とする。なお、出現頻度の計算方法自体は、公知の手法を利用可能であり、例えば、語の出願頻度をカウントする関数が用意されている場合には当該関数が利用されてもよい。

［判定部］
判定部１０５は、制御部１１を主として実現される。判定部１０５は、用語候補が取得された文書とは異なる他の文書に、用語候補が出現するか否かを判定する。他の文書は、用語候補が取得された文書以外の文書であればよく、１つであってもよいし、複数であってもよい。例えば、判定部１０５は、文書データベースＤＢ１に格納された全ての他の文書を判定対象としてもよいし、一部の他の文書を判定対象としてもよい。本実施形態では、工事種別ごとに用語辞書が作成されるので、判定部１０５は、用語候補が取得された文書と同じ工事種別の他の文書に、用語候補が出現するか否かを判定する。

本実施形態では、判定部１０５は、他の文書に用語候補が１つでもあれば、他の文書に用語候補が出現したと判定する。例えば、判定部１０５は、用語候補をクエリとして他の文書を検索し、用語候補が１つでもヒットした場合に、他の文書に用語候補が出現したと判定する。なお、判定部１０５は、他の文書における用語候補の出現頻度が閾値以上であった場合に、他の文書に用語候補が出現したと判定してもよい。この場合の出現頻度の計算方法は、計算部１０４の処理で説明した通りである。

また、本実施形態では、判定部１０５は、他の文書における用語候補の最長一致を判定する。例えば、ある分割部分から複数の用語候補が取得された場合、判定部１０５は、当該複数の用語候補の各々について、他の文書に出現するか否かを判定する。判定部１０５は、他の文書に出現すると判定された用語候補が複数存在した場合、最長の用語候補についてのみ、用語辞書への登録対象とする。最長の用語候補が複数存在した場合には、これら複数の最長の用語候補の全てが用語辞書への登録対象となってもよいし、何れか１つのみが用語辞書への登録対象となってもよい。

［第１制限部］
第１制限部１０６は、制御部１１を主として実現される。第１制限部１０６は、文書のうち、所定長未満の用語が用語辞書に登録されることを制限する。用語の長さとは、文字数である。所定長は、予め定められた長さであればよく、例えば、４文字程度であってもよいし、より長い閾値が設定されてもよい。ここでの制限とは、禁止又は防止と同じ意味である。

第１制限部１０６による制限の方法は、任意の方法を適用可能である。例えば、第１制限部１０６は、所定長未満の用語候補を取得部１０３に取得させないように制限してもよい。この場合、ベースファイルの文書のうち、所定長以上の部分だけが用語候補となり、所定長未満の部分については用語候補とはならない。また例えば、第１制限部１０６は、所定長未満の用語候補の出現頻度を計算部１０４に計算させないように制限してもよい。この場合、所定長以上の用語候補だけが出現頻度の計算対象となり、所定長未満の用語候補については出現頻度の計算対象とはならない。

また例えば、第１制限部１０６は、所定長未満の用語候補が他の文書に出現するか否かを判定部１０５に判定させないように制限してもよい。この場合、ベースファイルの文書のうち、所定長以上の用語候補だけが他の文書との判定対象となり、所定長未満の用語候補については他の文書との判定対象とはならない。また例えば、第１制限部１０６は、所定長未満の用語候補が本実施形態で記載した用語辞書への登録の条件を満たしたとしても、用語辞書に登録しないように制限してもよい。この場合、ベースファイルの文書のうち、所定長以上の用語候補だけが条件を満たした場合に用語辞書に登録され、所定長未満の用語候補については用語候補には条件を満たしても登録されない。

［第２制限部］
第２制限部１０７は、制御部１１を主として実現される。第２制限部１０７は、文書のうち、数詞を含む用語が用語辞書に登録されることを制限する。数詞とは、数を示す名詞であり、例えば、算用数字（アラビア数字）又は漢数字である。制限対象となる用語は、数詞だけから構成される用語、数詞を１つでも含む用語、数詞の数が閾値以上の用語、又は数詞の割合が所定割合の用語である。本実施形態では、第２制限部１０７は、全て数詞からなる用語が用語辞書に登録されることを制限する。

第２制限部１０７による制限の方法は、任意の方法を適用可能である。例えば、第２制限部１０７は、数詞を含む用語候補を取得部１０３に取得させないように制限してもよい。この場合、ベースファイルの文書のうち、数詞を含まない部分だけが用語候補となり、数詞を含む部分については用語候補とはならない。また例えば、第２制限部１０７は、数詞を含む用語候補の出現頻度を計算部１０４に計算させないように制限してもよい。この場合、数詞を含まない用語候補だけが出現頻度の計算対象となり、数詞を含む用語候補については出現頻度の計算対象とはならない。

また例えば、第２制限部１０７は、数詞を含む用語候補が他の文書に出現するか否かを判定部１０５に判定させないように制限してもよい。この場合、ベースファイルの文書のうち、数詞を含まない用語候補だけが他の文書との判定対象となり、数詞を含む用語候補については他の文書との判定対象とはならない。また例えば、第２制限部１０７は、数詞を含む用語候補が本実施形態で記載した用語辞書への登録の条件を満たしたとしても、用語辞書に登録しないように制限してもよい。この場合、ベースファイルの文書のうち、数詞を含まない用語候補だけが条件を満たした場合に用語辞書に登録され、数詞を含む用語候補については用語候補には条件を満たしても登録されない。

［作成部］
作成部１０８は、制御部１１を主として実現される。作成部１０８は、用語候補の出現頻度に基づいて、用語辞書を作成する。用語辞書の作成は、新規作成と更新の両方を意味する。このため、既存の用語辞書に新たな用語を登録（追加）することも、用語辞書を作成することに相当する。作成部１０８は、出現頻度が閾値未満の用語候補は用語辞書に登録せず、出現頻度が閾値以上の用語候補を用語辞書に登録する。即ち、作成部１０８は、出現頻度が閾値以上であることを条件として、用語候補を用語辞書に登録する。

なお、出現頻度の閾値は、固定値であってもよいし、可変値であってもよい。また、作成部１０８は、出現頻度の閾値を利用するのではなく、用語候補の出現頻度が高い順に所定個数の用語候補を特定し、用語辞書に登録してもよい。他にも例えば、作成部１０８は、用語候補の出現頻度の上位所定パーセントの用語候補を特定し、用語辞書に登録してもよい。

本実施形態では、作成部１０８は、用語候補の出現頻度と、判定部１０５の判定結果と、に基づいて、用語辞書を作成する。作成部１０８は、出現頻度だけでなく、判定部１０５の判定結果に更に基づいて、用語辞書を作成する。作成部１０８は、他の文書に出現していない用語候補は用語辞書に登録せず、他の文書に出現した用語候補を用語辞書に登録する。即ち、作成部１０８は、他の文書に出現することを条件として、用語候補を用語辞書に登録する。

また、本実施形態では、作成部１０８は、判定部１０５による最長一致の判定結果に基づいて、用語辞書を作成する。例えば、ある分割部分から取得された複数の用語候補が他の文書に出現した場合（又は、複数の用語候補が互いに部分一致する場合）、作成部１０８は、当該複数の用語候補のうち、最長の用語候補を用語辞書に登録し、それ以外の用語候補は用語辞書に登録しない。即ち、作成部１０８は、当該複数の用語候補のうち、最長であることを条件として、用語候補を用語辞書に登録する。

また、本実施形態では、第１制限部１０６により、所定長未満の用語候補が用語辞書に登録されることが制限されるので、作成部１０８は、所定長以上の用語候補を、用語辞書に登録する。作成部１０８は、所定長以上であることを条件として、用語候補を用語辞書に登録し、所定長未満の用語候補は、用語辞書に登録しない。

また、本実施形態では、第２制限部１０７により、数詞を含む用語が用語辞書に登録されることが制限されるので、作成部１０８は、数詞を含む用語ではない用語候補を、用語辞書に登録する。作成部１０８は、数詞を含む用語ではないことを条件として、用語候補を用語辞書に登録し、数詞を含む用語は、用語辞書に登録しない。

また、本実施形態の文書は、建設業における複数の工事種別の何れかに関する内容が記述されており、用語辞書は、建設業に関する用語が登録される辞書であり、作成部１０８は、工事種別ごとに、用語辞書を作成する。作成部１０８は、工事種別ごとに、当該工事種別の文書から取得された用語候補を、当該工事種別の用語辞書に登録する。即ち、作成部１０８は、複数の工事種別の各々に専用の用語辞書を作成することになる。

［処理実行部］
処理実行部１０９は、制御部１１を主として実現される。処理実行部１０９は、辞書データベースＤＢ２に格納された用語辞書に基づいて、所定の処理を実行する。所定の処理は、用語辞書を利用して行われる処理であればよく、本実施形態では、類似文書の検索である場合を説明する。なお、所定の処理は、他の処理であってもよく、例えば、キーワードの抽出であってもよい。例えば、処理実行部１０９は、辞書データベースＤＢ２に格納された用語辞書を利用して、文書データベースＤＢ１に格納された複数の文書の各々の特徴量を計算する。特徴量は、文書の特徴を定量化した情報であり、例えば、他次元ベクトルによって表現される。処理実行部１０９は、文書ごとに、用語辞書に格納された用語の出現頻度を計算し、各用語の出現頻度を特徴量として取得する。処理実行部１０９は、ある文書の特徴量と他の文書の特徴量が類似する場合、これらの文書が類似すると判定する。類似判定自体は、コサイン類似度等の公知の手法を適用可能である。

［４．本実施形態において実行される処理］
図６は、用語辞書作成装置１０で実行される処理を示すフロー図である。以降説明する処理は、制御部１１が記憶部１２に記憶されたプログラムに従って動作することによって実行される。また、以降説明する処理は、図３に示す機能ブロックにより実行される処理の一例である。

図６に示すように、用語辞書作成装置１０において、制御部１１は、複数の工事種別のうち、用語辞書の作成対象となる工事種別を特定する（Ｓ１）。用語辞書の作成対象となる工事種別は、任意の方法によって特定されてよく、例えば、ユーザが操作部１４を操作して指定してもよいし、まだ用語辞書を作成していない工事種別又は用語辞書を作成してから一定時間が経過した工事種別が自動的に選択されてもよい。

制御部１１は、文書データベースＤＢ１を参照し、Ｓ１で特定した工事種別の文書を取得する（Ｓ２）。Ｓ２においては、ユーザが操作部１４から文書の取得数ｎを指定した場合、制御部１１は、用語辞書の作成対象となる工事種別に関連付けられた文書のうち、ｎ個の文書を取得する。なお、ユーザが文書の取得数ｎを指定しない場合には、制御部１１は、予め定められた数の文書を取得したり、用語辞書の作成対象となる工事種別に関連付けられた全ての文書を取得したりすればよい。また、ユーザが文書自体を指定してもよい。

制御部１１は、Ｓ２で取得した文書に対し、形態素解析を実行する（Ｓ３）。Ｓ３においては、制御部１１は、形態素解析用の辞書に基づいて、Ｓ２で取得した文書から形態素を抽出し、形態素リストＬ１を作成する。Ｓ２において複数の文書が取得された場合には、制御部１１は、文書ごとに形態素リストＬ１を作成する。作成された形態素リストＬ１は、記憶部１２に一時的に記録される。

制御部１１は、Ｓ３で作成した形態素リストＬ１を不要語で分割して不要語を除去し、用語候補を取得する（Ｓ４）。Ｓ４においては、制御部１１は、形態素リストＬ１の中から不要語を特定し、不要語の位置で形態素リストＬ１を分割したうえで、不要語を除去することによって、分割後リストＬ２を取得する。Ｓ２において複数の文書が取得された場合には、制御部１１は、文書ごとに分割後リストＬ２を作成する。作成された分割後リストＬ２は、文書に関連付けられて記憶部１２に一時的に記録される。

制御部１１は、Ｓ２で取得した文書の文字数を計算する（Ｓ５）。Ｓ５においては、制御部１１は、Ｓ２で取得した文書から不要語を除去したうえで文字数を計算する。Ｓ２において複数の文書が取得された場合には、制御部１１は、文書ごとに文字数を計算する。計算された文字数は、文書に関連付けられて記憶部１２に一時的に記録される。

制御部１１は、カウンタ変数ｋに１を代入する（Ｓ６）。制御部１１は、文字数がｋ番目に多い文書における用語候補の出現頻度を計算する（Ｓ７）。Ｓ７においては、制御部１１は、用語候補ごとに、文字数がｋ番目に多い文書における出現頻度を計算し、文字数がｋ番目に多い文書の関係辞書を作成する。

制御部１１は、文字数がｋ番目に多い文書の関係辞書に格納された用語候補ごとに、文字数がｋ番目以外の他の文書に出現するか否かを判定する（Ｓ８）。Ｓ８においては、制御部１１は、文字数がｋ番目に多い文書の関係辞書に格納された用語候補ごとに、当該用語候補をクエリとして他の文書を検索し、当該用語候補がヒットしたか否かを判定する。先述したように、本実施形態では、Ｓ８において最長一致に基づく判定が実行される。

制御部１１は、最長一致に基づく用語候補と出現頻度を記憶部１２に一時的に記録する（Ｓ９）。Ｓ９においては、制御部１１は、文字数がｋ番目に多い文書の関係辞書に格納された用語候補のうち、最長一致となった用語候補とその出現頻度を記憶部１２に一時的に記録する。

制御部１１は、カウンタ変数ｋをインクリメントする（Ｓ１０）。制御部１１は、カウンタ変数ｋの値が文書の取得数ｎよりも大きいか否かを判定する（Ｓ１１）。カウンタ変数ｋの値がｎよりも大きいと判定されない場合（Ｓ１１；Ｎ）、Ｓ７の処理に戻る。この場合、次に文字数が多い文書について、Ｓ７〜Ｓ９の処理が実行される。

一方、カウンタ変数ｋの値がｎよりも大きくなったと判定された場合（Ｓ１１；Ｙ）、制御部１１は、最長一致に基づく用語候補のうち、出現頻度が閾値以上の用語候補に基づいて、用語辞書を作成し（Ｓ１２）、本処理は終了する。Ｓ１２においては、制御部１１は、文字数が１番目〜ｎ番目の各々の文書について、Ｓ９の処理で記録された出現頻度が閾値以上の用語候補を含む用語辞書を作成し、Ｓ１で特定された工事種別に関連付けて辞書データベースＤＢ２に格納する。

以上説明した用語辞書作成装置１０によれば、文書から抽出された形態素に基づいて、文書の中で名詞が連続する部分である用語候補を取得し、用語候補の出現頻度に基づいて、用語辞書を作成することによって、複数の名詞が連続した長い用語が新たに登場したとしても、精度の高い用語辞書を容易に作成することができる。精度の高い用語辞書を作成することによって、類似文書検索などの所定の処理を実行する際に、従来技術で説明したような複雑な処理を実行する必要がなくなり、比較的簡易な処理で済むようになる。このため、所定の処理を実行するコンピュータ（例えば、用語辞書作成装置１０）の処理負荷を軽減し、所定の処理をより高速化することもできる。

また、用語辞書作成装置１０は、文書から抽出された形態素が順番に並ぶ形態素リストＬ１を、名詞以外の品詞の形態素に基づいて分割し、形態素リストＬ１における分割部分の全部又は一部を、用語候補として取得することによって、簡易な処理によって、不要語が混じることのない正確な用語候補を取得することができる。

また、用語辞書作成装置１０は、分割部分ごとに、語順を保つ名詞の組み合わせの全てを、用語候補として特定することによって、より多様な用語候補を取得し、用語辞書の精度を高めることができる。

また、用語辞書作成装置１０は、文書とは異なる他の文書に、用語候補が出現するか否かを判定し、当該判定結果に基づいて用語辞書を作成することによって、複数の文書で登場する汎用性の高い用語を用語辞書に登録し、用語辞書の精度を効果的に高めることができる。

また、用語辞書作成装置１０は、他の文書における用語候補の最長一致を判定し、最長一致の判定結果に基づいて、用語辞書を作成することによって、より長い用語を用語辞書に登録し、用語辞書の精度を効果的に高めることができる。

また、用語辞書作成装置１０は、複数の文書の各々の文字数に基づいて、ベースファイルとなる文書を選択することによって、より多くの文字数の文書の中から多様な用語候補を取得し、用語辞書の精度を効果的に高めることができる。

また、用語辞書作成装置１０は、所定長未満の用語が用語辞書に登録されることを制限し、所定長以上の前記用語候補を用語辞書に登録することによって、より長い用語を用語辞書に登録し、用語辞書の精度を効果的に高めることができる。

また、用語辞書作成装置１０は、数詞を含む用語が用語辞書に登録されることを制限し、数詞を含む用語ではない用語候補を用語辞書に登録することによって、例えば数詞だけが羅列されたような意味のない用語が登録されることを防止し、用語辞書の精度を効果的に高めることができる。

また、用語辞書作成装置１０は、建設業における複数の工事種別の何れかに関する内容が記述された文書に基づいて、建設用語が登録された用語辞書を作成することによって、名詞が羅列された用語が生まれることの多い建築用語の用語辞書を容易に作成することができる。

［５．変形例］
なお、本発明は、以上に説明した実施の形態に限定されるものではない。本発明の趣旨を逸脱しない範囲で、適宜変更可能である。

例えば、実施形態では、形態素リストＬ１を不要語で分割することによって分割部分を取得し、用語候補が取得される場合を説明したが、用語辞書作成装置１０は、名詞が連続する部分を用語候補としてもよく、用語候補の取得方法は、実施形態で説明した例に限られない。例えば、用語辞書作成装置１０は、形態素リストＬ１に示された形態素を、最初から順番に参照して名詞の形態素を特定し、名詞以外の形態素が見つかるまでの間にある形態素を分割部分としてもよい。

また例えば、用語辞書作成装置１０は、分割部分の名詞の全通りの組み合わせではなく、一部の組み合わせだけを用語候補としてもよい。また例えば、用語辞書作成装置１０は、最長一致に特に基づかずに、他の文書に出現した用語候補の全部又は一部を用語辞書に登録してもよい。また例えば、用語辞書作成装置１０は、文字列長に特に関係なく、用語候補を用語辞書に登録してもよいし、用語辞書に登録する用語候補の文字列長に上限値を設けてもよい。また例えば、用語辞書作成装置１０は、数詞が含まれていたとしても、用語候補を用語辞書に登録してもよい。

また例えば、実施形態では、建設用語の用語辞書が作成される場合を説明したが、他の専門分野の用語辞書が作成されてもよい。例えば、医療、製造業、ＩＴ関連、又は飲食業といった任意の分野の文書に基づいて、これらの分野の用語辞書が作成されてもよい。他の専門分野としては、名詞が連続する用語が用いられることが多い分野が好ましいが、用語辞書作成装置１０は、他の分野の用語辞書の用語辞書を作成してもよい。また例えば、用語辞書作成装置１０は、特定の専門分野ではない用語辞書を作成してもよい。

また例えば、実施形態では、用語辞書作成装置１０によって各機能が実現される場合を説明したが、例えば、データ記憶部１００は、サーバコンピュータによって実現されてもよい。また例えば、用語辞書作成装置１０は、サーバコンピュータによって実現され、ユーザが操作する端末がネットワークを介して用語辞書作成装置１０の機能を利用してもよい。

１０用語辞書作成装置、１１制御部、１２記憶部、１３通信部、１４操作部、１５表示部、１００データ記憶部、１０１選択部、１０２実行部、１０３取得部、１０４計算部、１０５判定部、１０８作成部、１０９処理実行部、ＤＢ１文書データベース、ＤＢ２辞書データベース。

Claims

文書に対し、形態素解析を実行する実行手段と、
前記文書から抽出された形態素に基づいて、前記文書の中で名詞が連続する部分を用語候補として取得する取得手段と、
前記用語候補の出現頻度を計算する計算手段と、
前記用語候補の出現頻度に基づいて、用語辞書を作成する作成手段と、
を含むことを特徴とする用語辞書作成装置。
前記取得手段は、
前記文書から抽出された形態素が順番に並ぶリストを、名詞以外の品詞の形態素に基づいて分割し、
前記リストにおける分割部分の全部又は一部を、前記用語候補として取得する、
ことを特徴とする請求項１に記載の用語辞書作成装置。
前記取得手段は、前記分割部分ごとに、語順を保つ名詞の組み合わせの全てを、前記用語候補として特定する、
ことを特徴とする請求項２に記載の用語辞書作成装置。
前記用語辞書作成装置は、前記文書とは異なる他の文書に、前記用語候補が出現するか否かを判定する判定手段を更に含み、
前記作成手段は、前記用語候補の出現頻度と、前記判定手段の判定結果と、に基づいて、前記用語辞書を作成する、
ことを特徴とする請求項１〜３の何れかに記載の用語辞書作成装置。
前記判定手段は、前記他の文書における前記用語候補の最長一致を判定し、
前記作成手段は、前記判定手段による最長一致の判定結果に基づいて、前記用語辞書を作成する、
ことを特徴とする請求項４に記載の用語辞書作成装置。
前記用語辞書作成装置は、複数の前記文書の各々の文字数に基づいて、前記複数の文書の中から、前記用語候補の抽出対象となる文書を選択する選択手段を更に含み、
前記実行手段は、前記選択手段により選択された文書に対し、形態素解析を実行し、
前記取得手段は、前記選択手段により選択された文書の中から、前記用語候補を取得する、
ことを特徴とする請求項１〜５の何れかに記載の用語辞書作成装置。
前記用語辞書作成装置は、前記文書のうち、所定長未満の用語が前記用語辞書に登録されることを制限する第１制限手段を更に含み、
前記作成手段は、前記所定長以上の前記用語候補を、前記用語辞書に登録する、
ことを特徴とする請求項１〜６の何れかに記載の用語辞書作成装置。
前記用語辞書作成装置は、前記文書のうち、数詞を含む用語が前記用語辞書に登録されることを制限する第２制限手段を更に含み、
前記作成手段は、前記数詞を含む用語ではない前記用語候補を、前記用語辞書に登録する、
ことを特徴とする請求項１〜７の何れかに記載の用語辞書作成装置。
前記文書は、建設業における複数の工事種別の何れかに関する内容が記述されており、
前記用語辞書は、建設用語が登録される辞書であり、
前記作成手段は、前記工事種別ごとに、前記用語辞書を作成する、
ことを特徴とする請求項１〜８の何れかに記載の用語辞書作成装置。
文書に対し、形態素解析を実行する実行ステップと、
前記文書から抽出された形態素に基づいて、前記文書の中で名詞が連続する部分を用語候補として取得する取得ステップと、
前記用語候補の出現頻度を計算する計算ステップと、
前記用語候補の出現頻度に基づいて、用語辞書を作成する作成ステップと、
を含むことを特徴とする用語辞書作成方法。
文書に対し、形態素解析を実行する実行手段と、
前記文書から抽出された形態素に基づいて、前記文書の中で名詞が連続する部分を用語候補として取得する取得手段と、
前記用語候補の出現頻度を計算する計算手段と、
前記用語候補の出現頻度に基づいて、用語辞書を作成する作成手段と、
としてコンピュータを機能させるためのプログラム。