JP2021026586A - 用語辞書作成装置、用語辞書作成方法、及びプログラム - Google Patents

用語辞書作成装置、用語辞書作成方法、及びプログラム Download PDF

Info

Publication number
JP2021026586A
JP2021026586A JP2019145119A JP2019145119A JP2021026586A JP 2021026586 A JP2021026586 A JP 2021026586A JP 2019145119 A JP2019145119 A JP 2019145119A JP 2019145119 A JP2019145119 A JP 2019145119A JP 2021026586 A JP2021026586 A JP 2021026586A
Authority
JP
Japan
Prior art keywords
term
document
dictionary
term dictionary
candidates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019145119A
Other languages
English (en)
Other versions
JP7361525B2 (ja
Inventor
祐二 新井
Yuji Arai
祐二 新井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Maeda Corp
Original Assignee
Maeda Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Maeda Corp filed Critical Maeda Corp
Priority to JP2019145119A priority Critical patent/JP7361525B2/ja
Publication of JP2021026586A publication Critical patent/JP2021026586A/ja
Application granted granted Critical
Publication of JP7361525B2 publication Critical patent/JP7361525B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】精度の高い用語辞書を容易に作成する用語辞書作成装置、用語辞書作成方法及びプログラムを提供する。【解決手段】用語辞書作成装置の実行手段102は、文書に対し、形態素解析を実行する。取得手段103は、文書から抽出された形態素に基づいて、文書の中で名詞が連続する部分を用語候補として取得する。計算手段104は、用語候補の出現頻度を計算する。作成手段108は、用語候補の出現頻度に基づいて、用語辞書を作成する。【選択図】図3

Description

本発明は、用語辞書作成装置、用語辞書作成方法、及びプログラムに関する。
従来、所定の言語で記述された文書をコンピュータに解析させる技術が検討されている。例えば、特許文献1には、複数の文書の各々の組み合わせについて、所定の長さ以上の共通部分文字列を抽出することによって、形態素解析や用語辞書を用いなくても、複合語などの長い文字列に基づいて文書間の関連付けを行う技術が記載されている。また例えば、非特許文献1には、文書に含まれる文字列の出現頻度に加えて、出現集中を示す統計量を用いることによって、用語辞書を用いなくても、文書からキーワードを抽出する技術が記載されている。
特許第5106042号公報
梅村 恭司、未踏テキスト情報中のキーワードの抽出システム開発、https://www.ipa.go.jp/files/000005543.pdf
しかしながら、特許文献1及び非特許文献1の各々の技術では、複数の名詞が連続した長い用語が新たに登場したとしても、文書間の関連付けをしたりキーワードとして抽出したりすることができるが、これらの技術は、何れも用語辞書を用いないことを前提としている。もし仮に、新たに登場した長い用語の用語辞書があれば、特許文献1及び非特許文献1のような複雑な処理を実行する必要がなくなり、比較的簡易な処理によって精度の高い処理結果を得ることができるようになる。この点、精度の高い用語辞書を準備しようとすると、専門家が文書を読み込んで手動で用語辞書を作成する必要があり、用語辞書を定期的に更新する必要もあるので、非常に手間がかかる。
本発明は上記課題に鑑みてなされたものであって、その目的は、精度の高い用語辞書を容易に作成することが可能な用語辞書作成装置、用語辞書作成方法、及びプログラムを提供することである。
上記課題を解決するために、本発明の一態様に係る用語辞書作成装置は、文書に対し、形態素解析を実行する実行手段と、前記文書から抽出された形態素に基づいて、前記文書の中で名詞が連続する部分を用語候補として取得する取得手段と、前記用語候補の出現頻度を計算する計算手段と、前記用語候補の出現頻度に基づいて、用語辞書を作成する作成手段と、を含むことを特徴とする。
本発明の一態様に係る用語辞書作成方法は、文書に対し、形態素解析を実行する実行ステップと、前記文書から抽出された形態素に基づいて、前記文書の中で名詞が連続する部分を用語候補として取得する取得ステップと、前記用語候補の出現頻度を計算する計算ステップと、前記用語候補の出現頻度に基づいて、用語辞書を作成する作成ステップと、を含むことを特徴とする。
本発明の一態様に係るプログラムは、文書に対し、形態素解析を実行する実行手段と、前記文書から抽出された形態素に基づいて、前記文書の中で名詞が連続する部分を用語候補として取得する取得手段と、前記用語候補の出現頻度を計算する計算手段と、前記用語候補の出現頻度に基づいて、用語辞書を作成する作成手段と、としてコンピュータを機能させる。
また、本発明の一態様では、前記取得手段は、前記文書から抽出された形態素が順番に並ぶリストを、名詞以外の品詞の形態素に基づいて分割し、前記リストにおける分割部分の全部又は一部を、前記用語候補として取得する、ことを特徴とする。
また、本発明の一態様では、前記取得手段は、前記分割部分ごとに、語順を保つ名詞の組み合わせの全てを、前記用語候補として特定する、ことを特徴とする。
また、本発明の一態様では、前記用語辞書作成装置は、前記文書とは異なる他の文書に、前記用語候補が出現するか否かを判定する判定手段を更に含み、前記作成手段は、前記用語候補の出現頻度と、前記判定手段の判定結果と、に基づいて、前記用語辞書を作成する、ことを特徴とする。
また、本発明の一態様では、前記判定手段は、前記他の文書における前記用語候補の最長一致を判定し、前記作成手段は、前記判定手段による最長一致の判定結果に基づいて、前記用語辞書を作成する、ことを特徴とする。
また、本発明の一態様では、前記用語辞書作成装置は、複数の前記文書の各々の文字数に基づいて、前記複数の文書の中から、前記用語候補の抽出対象となる文書を選択する選択手段を更に含み、前記実行手段は、前記選択手段により選択された文書に対し、形態素解析を実行し、前記取得手段は、前記選択手段により選択された文書の中から、前記用語候補を取得する、ことを特徴とする。
また、本発明の一態様では、前記用語辞書作成装置は、前記文書のうち、所定長未満の用語が前記用語辞書に登録されることを制限する第1制限手段を更に含み、前記作成手段は、前記所定長以上の前記用語候補を、前記用語辞書に登録する、ことを特徴とする。
また、本発明の一態様では、前記用語辞書作成装置は、前記文書のうち、数詞を含む用語が前記用語辞書に登録されることを制限する第2制限手段を更に含み、前記作成手段は、前記数詞を含む用語ではない前記用語候補を、前記用語辞書に登録する、ことを特徴とする。
また、本発明の一態様では、前記文書は、建設業における複数の工事種別の何れかに関する内容が記述されており、前記用語辞書は、建設用語が登録される辞書であり、前記作成手段は、前記工事種別ごとに、前記用語辞書を作成する、ことを特徴とする。
本発明によれば、精度の高い用語辞書を容易に作成することができる。
実施形態に係る用語辞書作成装置のハードウェア構成を示す図である。 用語辞書作成装置が実行する処理の概要を示す図である。 用語辞書作成装置で実現される機能の一例を示す機能ブロック図である。 文書データベースのデータ格納例を示す図である。 辞書データベースのデータ格納例を示す図である。 用語辞書作成装置で実行される処理を示すフロー図である。
[1.用語辞書作成装置の全体構成]
以下、本発明に係る実施形態について、図面を参照しつつ説明する。図1は、実施形態に係る用語辞書作成装置のハードウェア構成を示す図である。用語辞書作成装置10は、ユーザが操作するコンピュータであり、例えば、パーソナルコンピュータ、携帯情報端末(タブレット型コンピュータを含む)、又は携帯電話機(スマートフォンを含む)等である。図1に示すように、例えば、用語辞書作成装置10は、制御部11、記憶部12、通信部13、操作部14、及び表示部15を含む。
制御部11は、少なくとも1つのプロセッサを含む。制御部11は、記憶部12に記憶されたプログラムやデータに従って処理を実行する。記憶部12は、主記憶部及び補助記憶部を含む。例えば、主記憶部はRAMなどの揮発性メモリであり、補助記憶部は、ハードディスクやフラッシュメモリなどの不揮発性メモリである。通信部13は、有線通信又は無線通信用の通信インタフェースを含み、例えば、ネットワークを介してデータ通信を行う。操作部14は、入力デバイスであり、例えば、タッチパネルやマウス等のポインティングデバイスやキーボード等である。操作部14は、操作内容を制御部11に伝達する。表示部15は、例えば、液晶表示部又は有機EL表示部等である。
なお、記憶部12に記憶されるものとして説明するプログラム及びデータは、ネットワークを介して用語辞書作成装置10に供給されるようにしてもよい。また、用語辞書作成装置10のハードウェア構成は、上記の例に限られず、種々のハードウェアを適用可能である。例えば、用語辞書作成装置10は、コンピュータ読み取り可能な情報記憶媒体を読み取る読取部(例えば、光ディスクドライブやメモリカードスロット)や外部機器と直接的に接続するための入出力部(例えば、USB端子)を含んでもよい。この場合、情報記憶媒体に記憶されたプログラムやデータが読取部又は入出力部を介して、用語辞書作成装置10に供給されるようにしてもよい。
[2.用語辞書作成装置の概要]
図2は、用語辞書作成装置10が実行する処理の概要を示す図である。本実施形態の用語辞書作成装置10は、複数の文書の各々に対して形態素解析を実行し、名詞が連続する部分である用語候補の出現頻度に基づいて、用語辞書を作成する。
文書とは、少なくとも1つの文(文章又は文字列)が格納されたファイルである。文書には、任意の数の文が含まれてよく、例えば、1〜10程度の文が含まれていてもよいし、数十〜数万程度の文が含まれていてもよい。文書は、任意のファイル形式であってよく、いわゆるドキュメントファイルに限られない。例えば、文書は、プレーンテキスト、リッチテキスト、表計算ソフトのファイル形式、プレゼンテーション作成ソフトのファイル形式、HTML形式、又はXML形式といった任意のファイル形式であってもよい。文書は、文だけでなく、写真や表などの他の情報が含まれていてもよい。文書は、任意の言語で記述されてよく、本実施形態では、日本語とするが、英語や中国語などの他の言語であってもよい。
形態素解析とは、文書に記述された言語の文法や品詞に基づいて、文書を形態素に分割することである。形態素解析は、品詞分解と呼ばれることもある。形態素は、意味を持つ最小限の単位である。形態素は、トークン又は単語と呼ばれることもある。形態素解析では、任意の品詞に分割されてよく、例えば、名詞、動詞、形容詞、形容動詞、副詞、連体詞、接続詞、感動詞、助動詞、又は助詞といった品詞に分解される。形態素解析では、品詞だけではなく、文字であるか記号であるかといった分類が行われてもよい。形態素解析の手法自体は、公知の手法を適用可能であり、例えば、Mecabと呼ばれるフリーの形態素解析エンジンが利用されてもよいし、商用のエンジンが利用されてもよい。
用語候補とは、用語辞書に登録される候補となる語である。用語候補は、用語辞書にまだ登録されていない語であってもよいし、用語辞書に登録済みの語であってもよい。用語候補は、文書に含まれる一部分であり、少なくとも1つの形態素から構成される。用語候補は、1つの形態素だけから構成されることもあるし、複数の形態素から構成されることもある。用語候補が複数の形態素から構成される場合には、互いに隣接する複数の形態素が文書における語順通りに結合したものが用語候補となる。
出現頻度とは、文書において語が出現する頻度である。別の言い方をすれば、出現頻度は、文書において語が登場する回数、又は、文書における語の一致数である。例えば、ある語をクエリにして文書全体を検索した場合のヒット数は、その語の出現頻度となる。
用語辞書とは、複数の用語が格納されたファイルである。用語辞書には、任意の数の用語が含まれてよく、例えば、数十〜数百程度の用語が格納されていてもよいし、数千〜数万程度の用語が格納されていてもよい。用語辞書は、任意の用途で利用されてよく、例えば、類似文書の検索、文書内の語同士の関連性の特定、キーワードの抽出、又は形態素解析などで利用される。用語辞書は、特定の分野に限定されない国語辞典のような汎用的な辞書であってもよいし、専門分野において用いられる専門用語が格納された辞書であってもよい。
本実施形態では、建設業における建設用語が格納される用語辞書を作成する場面を例に挙げて、用語辞書作成装置10の処理を説明する。例えば、土木工事の施工計画書では、「交差点南中央分離帯防護柵」や「先施工部高圧噴射撹拌工」といったように、多数の名詞が連結した建設用語が使用されることが多い。更に、新規の工事が行われる場合に、その工事に応じた独自の用語が新たに生まれることもある。このような用語は、Mecabなどの一般的な形態素解析を利用しても、1つの単語として特定することが難しい。
例えば、「交差点南中央分離帯防護柵」であれば、一般的な形態素解析を利用すると、「交差点」「南」「中央」「分離帯」「防護柵」といった一般的な名詞に分割され、建設用語としての意味が消失する。「先施工部高圧噴射撹拌工」も同様に、一般的な形態素解析を利用すると、「先」「施工」「部」「高圧」「噴射」「撹拌」「工」といった一般的な名詞に分割され、建設用語としての意味が消失する。これらの建設用語が一般的な名詞に分割されてしまうと、例えば、ある施工計画書と似た他の施工計画書を検索するのが難しくなる。
この点、建設業特有の用語辞書を作成し、形態素解析を行うことが考えられる。例えば、「交差点南中央分離帯防護柵」や「先施工部高圧噴射撹拌工」といった用語を用語辞書に登録しておけば、一般的な形態素解析とは異なり、これらのまとまりを1つの用語として特定することができる。
しかしながら、用語辞書は、建築や土木などの複数の専門家が文書を読み込んで手動で用語辞書を作成する必要がある。また、新規の工事の際に新たな用語が生まれることも多いので、用語辞書を定期的に更新する必要がある。例えば、「交差点南中央分離帯防護柵」や「先施工部高圧噴射撹拌工」が新たに生まれた用語であったとして、これらの用語が用語辞書に登録されていなければ、「交差点南」と「中央分離帯防護柵」に分割されたり、「先」「施工部」「高圧噴射撹拌工」に分割されたりして、1つの用語として特定できない可能性がある。このため、専門家が定期的に手動で用語辞書を更新する必要があり、非常に手間がかかる。
そこで、本実施形態では、用語辞書作成装置10は、施工計画書などの複数の文書の中から、名詞が連続する部分を用語候補として取得し、建設業特有の用語辞書を作成するようにしている。
図2に示すように、例えば、用語辞書作成装置10は、トンネル工事の施工計画書である文書D1に対し、一般的な形態素解析を実行し、形態素リストL1を作成する。形態素リストL1には、文書D1から抽出された形態素が語順の通りに並び、各形態素の分類を示す情報も付加される。例えば、「本」という形態素は「接頭詞」であり、「トンネル」という形態素は「名詞」であるといったように、形態素リストL1には、形態素ごとに、形態素と分類が関連付けられて示される。なお、本実施形態では、形態素解析の辞書に登録されていない未知語については、品詞などの分類が推定されない。
用語辞書作成装置10は、形態素リストL1の中から、用語辞書に登録しない不要語を特定する。本実施形態では、(1)名詞以外の品詞、(2)名詞にサ変接続(〜される、〜した、〜する等)が結合した語、及び(3)名詞に接尾(〜さん、〜っぽい等)が結合した語の3つを不要語とするが、不要語は、予め定められた語であればよく、これらに限られない。用語辞書作成装置10は、上記特定した不要語で形態素リストL1を分割し、形態素リストL1から不要語を除去することによって、分割後リストL2を作成する。分割後リストL2では、形態素リストL1で示された分類の情報も除去される。なお、形態素リストL1及び分割後リストL2の内容は、正規化されてもよい。
図2の例では、分割後リストL2において、不要語で区切られた分割部分を[]の記号で示している。分割部分には、少なくとも1つの名詞が並ぶ。例えば、文書D1の中に「名詞1 名詞2 動詞1 名詞3」という並びの記述があったとする。この記述のうち、「動詞1」は不要語なので、当該記述は、[名詞1,名詞2]の分割部分と、[名詞3]の分割部分と、に分けられる。図2に示すように、分割部分には、複数の名詞が語順通りに並ぶ分割部分(例えば、[トンネル,工事]や[道路,トンネル,観測])もあれば、1つの名詞だけから構成される分割部分(例えば、[計測]や[必須])もある。
用語辞書作成装置10は、分割部分の全部又は一部の語を用語候補として取得する。例えば、分割部分が1つの名詞だけから構成される場合、当該1つの名詞がそのまま用語候補となる。また例えば、分割部分が複数の名詞から構成される場合、語順を保つことを条件として、任意の組み合わせの名詞が用語候補となる。
本実施形態では、複数の名詞を含む分割部分については、語順を保つ全ての組み合わせが用語候補となる。例えば、分割部分が[名詞1,名詞2,名詞3]の場合、「名詞1」、「名詞1名詞2」、「名詞1名詞2名詞3」、「名詞2」、「名詞2名詞3」、及び「名詞3」の6つが用語候補となる。図2の例であれば、[トンネル,工事]の分割部分からは、「トンネル」、「工事」、及び「トンネル工事」の3つが用語候補となる。一方、[計測]の分割部分は、1つの名詞しかないので、そのまま「計測」が用語候補となる。
なお、用語候補が取得される文書(以降、ベースファイルということもある。)は、1つだけであってもよいが、本実施形態では、複数の文書がベースファイルとして利用される場合を説明する。図2に示すように、用語辞書作成装置10は、ベースファイルとなる文書の各々に対し、上記説明した処理を実行し、文書名と分割後リストL2とを関連付けて記憶部12に記録する。
そして、用語辞書作成装置10は、文書ごとに、不要語を除いた部分の文字数を計算する。用語辞書作成装置10は、最も文字数の多い文書(図2では、文書D1)の分割後リストL2に格納された各用語候補の出現頻度を計算し、関係辞書D2を作成する。関係辞書D2は、文書D1から取得された用語候補と、文書D1における出現頻度と、が関連付けられたデータである。関係辞書D2は、文書ごとに作成される。なお、本実施形態では、文字列長が閾値未満の用語候補については、関係辞書D2に登録されない。また、用語候補が所定の文字列の場合には、関係辞書D2に登録されないようにしてもよい。
用語辞書作成装置10は、最も文字数が多い文書の関係辞書に格納された用語候補が、他の文書に出現するか否かを判定することによって、用語候補を用語辞書に登録するか否かを決定する。本実施形態では、用語辞書作成装置10は、関係辞書における用語候補の最長一致を判定し、用語辞書に登録すべき用語候補を決定する。図2の関係辞書D2のデータ格納例であれば、「トンネル」、「工事」、及び「トンネル工事」は、ともに同じ分割部分から取得された用語候補なので、用語辞書作成装置10は、これら3つの用語候補の全てが他の文書に出現する場合、最も長い用語候補である「トンネル工事」を、登録すべき用語候補として決定する。この場合、「トンネル」と「工事」については、用語辞書には登録されない。
用語辞書作成装置10は、2番目に文字数が多い文書についても、上記と同様にして、関係辞書に格納された用語候補の最長一致を判定し、最長の用語候補を選出する。以降同様にして、用語辞書作成装置10は、n(nは自然数。図2の例では3以上の整数。)番目に文字数が多い文書まで、関係辞書に格納された用語候補の最長一致を判定し、最長の用語候補を選出する。用語辞書作成装置10は、各文書から選出した用語候補のうち、出現頻度が閾値以上の用語候補を用語辞書に登録し、用語辞書の作成が完了する。
以上のように、本実施形態の用語辞書作成装置10は、文書から抽出された形態素に基づいて、文書の中で名詞が連続する部分である用語候補を取得し、用語候補の出現頻度に基づいて、用語辞書を作成する。これにより、用語辞書作成装置10は、複数の名詞が連続した長い用語が新たに登場したとしても、精度の高い用語辞書を容易に作成することを可能としている。以降、本技術の詳細について説明する。
[3.本実施形態で実現される機能]
図3は、用語辞書作成装置10で実現される機能の一例を示す機能ブロック図である。図3に示すように、用語辞書作成装置10では、データ記憶部100、選択部101、実行部102、取得部103、計算部104、判定部105、第1制限部106、第2制限部107、作成部108、及び処理実行部109が実現される。
[データ記憶部]
データ記憶部100は、記憶部12を主として実現される。データ記憶部100は、本実施形態で説明する処理の実行に必要なデータを記憶する。ここでは、データ記憶部100が記憶するデータとして、文書データベースDB1と、辞書データベースDB2と、について説明する。
図4は、文書データベースDB1のデータ格納例を示す図である。文書データベースDB1は、文書が格納されるデータベースである。図4に示すように、本実施形態では、工事種別ごとに、少なくとも1つの文書が文書データベースDB1に格納されている。工事種別は、工事の分類であり、例えば、建築又は土木といった大まかな分類であってもよいし、トンネル工事又はダム工事といった詳細な分類であってもよい。工事種別は、文書に記述された工事の内容に応じた種別が格納される。
建築の工事種別に関連付けられた文書には、商業施設や集合住宅などの建築工事に関する内容が記述される。例えば、商業施設や集合住宅などの施工計画書は、建築の工事種別に関連付けられて格納される。土木の工事種別に関連付けられた文書には、山岳トンネルやダムなどの土木工事に関する内容が記述される。例えば、山岳トンネルやダムなどの施工計画書は、土木の工事種別に関連付けられて格納される。文書データベースDB1に格納される文書は、用語辞書を作成するユーザ等によって予め準備されており、例えば、建築会社の社内に保管されている種々の文書が文書データベースDB1に格納される。
図5は、辞書データベースDB2のデータ格納例を示す図である。辞書データベースDB2は、後述する作成部108によって作成された用語辞書が格納されるデータベースである。図5に示すように、本実施形態では、工事種別ごとに、用語辞書が文書データベースDB1に格納されている。図5では、各工事種別の用語辞書に登録された用語が示されている。
建築の工事種別に関連付けられた用語辞書には、商業施設や集合住宅などの建築工事に関する建設用語が格納される。当該建設用語は、例えば、商業施設や集合住宅などの施工計画書から抽出された用語である。土木の工事種別に関連付けられた用語辞書には、山岳トンネルやダムなどの土木工事に関する建設用語が格納される。当該建設用語は、例えば、山岳トンネルやダムなどの土木工事の施工計画書から抽出された用語である。用語辞書は、作成部108によって登録された用語だけでなく、ユーザが手動で指定した用語が登録されてもよい。
なお、データ記憶部100に記憶されるデータは、上記の例に限られない。例えば、データ記憶部100は、形態素解析のエンジンを記憶してもよいし、形態素解析で利用される辞書を記憶してもよい。他にも例えば、データ記憶部100は、本実施形態で説明する閾値や不要語の定義などの他の情報を記憶してもよい。
[選択部]
選択部101は、制御部11を主として実現される。選択部101は、文書データベースDB1の中から、用語候補の抽出対象となる文書(ベースファイル)を選択する。抽出対象となる文書は、文書データベースDB1に格納された全ての文書であってもよいし、ユーザにより指定された文書であってもよいが、本実施形態では、選択部101が、複数の文書の各々の文字数に基づいて、複数の文書の中から、用語候補の抽出対象となる文書を選択する場合を説明する。
例えば、選択部101は、各文書の文字数を計算し、文字数が多い順にn番目までの文書を、ベースファイルとして選択する。nの数値は、ユーザが指定してもよいし、予め定められていてもよい。本実施形態では、選択部101が文書から不要語を除外したうえで文字数を計算する場合を説明するが、選択部101は、特に不要語を除外せずに文字数を計算してもよい。なお、文字数に基づいて文書を選択する方法は、上記の例に限られず、選択部101は、文字数が閾値以上の文書の全てを、ベースファイルとして選択してもよい。
[実行部]
実行部102は、制御部11を主として実現される。実行部102は、文書に対し、形態素解析を実行する。形態素解析が実行される文書は、文書データベースDB1に格納された全ての文書であってもよいし、ユーザにより指定された文書であってもよいが、本実施形態では選択部101が実現されるので、実行部102は、選択部101により選択された文書に対し、形態素解析を実行する。
先述したように、形態素解析自体は公知の手法を適用可能であり、例えば、実行部102は、形態素解析用の辞書を利用して、処理対象の文書から形態素を抽出する。形態素解析で利用される辞書は、辞書データベースDB2に格納された用語辞書であってもよいが、本実施形態では、一般的な形態素解析エンジンで利用される辞書とする。このため、本実施形態では、実行部102は、建設業の専門用語に基づいて形態素に分解するのではなく、一般的な用語に基づいて形態素に分解することになる。
実行部102は、1つの文書に対して形態素解析を実行してもよいが、本実施形態では、複数の文書の各々に対して形態素解析を実行する。このため、実行部102は、形態素解析の対象となる文書ごとに、当該文書を形態素に分解して形態素リストL1を作成する。また、本実施形態では、工事種別ごとに用語辞書が作成されるので、実行部102は、用語辞書の作成対象となる工事種別の文書に対し、形態素解析を実行する。
[取得部]
取得部103は、制御部11を主として実現される。取得部103は、文書から抽出された形態素(例えば、形態素リストL1に示された形態素)に基づいて、文書の中で名詞が連続する部分(例えば、分割後リストL2に示された連続部分の全部又は一部)を用語候補として取得する。
名詞が連続する部分とは、形態素解析によって名詞に分類された形態素が2つ以上続く部分である。別の言い方をすれば、名詞が連続する部分は、名詞に分類された形態素の間に不要語がない部分である。例えば、名詞と名詞の間に他の語が無い部分、又は、助詞である「の」を介して複数の名詞が連続した部分は、名詞が連続する部分に相当する。即ち、「名詞1名詞2」といった部分だけでなく、「名詞1の名詞2」といった部分が、名詞が連続する部分に相当してもよい。
本実施形態では、各形態素の分類を示す情報が形態素リストL1に含まれているので、取得部103は、形態素リストL1中の当該情報に基づいて名詞が連続する部分を特定し、用語候補を取得する。なお、先述したように、取得部103は、名詞が連続する部分だけでなく名詞が1つだけの部分も、用語候補として取得する。
本実施形態では、取得部103は、文書から抽出された形態素が順番に並ぶ形態素リストL1を、名詞以外の品詞の形態素(不要語の一例)に基づいて分割し、形態素リストL1における分割部分の全部又は一部を、用語候補として取得する。例えば、取得部103は、形態素リストL1を参照し、不要語に該当する形態素を特定する。取得部103は、形態素リストL1を不要語で分割して不要語を除去することによって、分割部分を示す分割後リストL2を作成する。取得部103は、分割後リストL2に示された分割部分の全部又は一部を、用語候補として取得する。
本実施形態では、取得部103は、分割部分ごとに、語順を保つ名詞の組み合わせの全てを、用語候補として特定する。例えば、複数の名詞を含む分割部分については、取得部103は、間に他の語を挟まずに、かつ、語順通りとなるように、全ての組み合わせを特定し、各々の組み合わせを用語候補として取得する。更に、取得部103は、分割部分に含まれる個々の名詞も、用語候補として取得する。例えば、分割部分にm(mは2以上の整数)個の名詞が含まれていたとすると、取得部103は、1個以上m個以下の全ての名詞の組み合わせを用語候補として取得する。また例えば、1つの名詞だけを含む分割部分については、取得部103は、当該1つの名詞を用語候補として取得する。
また、本実施形態では、選択部101によりベースファイルとなる文書が選択されるので、取得部103は、選択部101により選択された文書の中から、用語候補を取得する。即ち、取得部103は、文書データベースDB1に格納された文書のうち、選択部101により選択されていない文書からは用語候補を取得せず、選択部101により選択された文書を、用語候補の取得対象とする。
[計算部]
計算部104は、制御部11を主として実現される。計算部104は、用語候補の出現頻度を計算する。本実施形態では、計算部104は、用語候補の取得元の文書(用語候補が含まれていた文書)における出現頻度を計算する場合を説明するが、他の文書における出現頻度を計算してもよいし、これらの両方における出現頻度を計算してもよい。例えば、計算部104は、分割後リストL2から取得された用語候補ごとに、当該用語候補の取得元の文書における出現頻度を計算する。
本実施形態では、複数の文書がベースファイルとなるので、計算部104は、文書ごとに、当該文書から取得された用語候補の出現頻度を計算する。例えば、計算部104は、用語候補をクエリとし、文書の中を検索してヒット数を計算して出現頻度として取得する。その際の検索は、あいまい検索ではなく、文字列の完全一致とする。なお、出現頻度の計算方法自体は、公知の手法を利用可能であり、例えば、語の出願頻度をカウントする関数が用意されている場合には当該関数が利用されてもよい。
[判定部]
判定部105は、制御部11を主として実現される。判定部105は、用語候補が取得された文書とは異なる他の文書に、用語候補が出現するか否かを判定する。他の文書は、用語候補が取得された文書以外の文書であればよく、1つであってもよいし、複数であってもよい。例えば、判定部105は、文書データベースDB1に格納された全ての他の文書を判定対象としてもよいし、一部の他の文書を判定対象としてもよい。本実施形態では、工事種別ごとに用語辞書が作成されるので、判定部105は、用語候補が取得された文書と同じ工事種別の他の文書に、用語候補が出現するか否かを判定する。
本実施形態では、判定部105は、他の文書に用語候補が1つでもあれば、他の文書に用語候補が出現したと判定する。例えば、判定部105は、用語候補をクエリとして他の文書を検索し、用語候補が1つでもヒットした場合に、他の文書に用語候補が出現したと判定する。なお、判定部105は、他の文書における用語候補の出現頻度が閾値以上であった場合に、他の文書に用語候補が出現したと判定してもよい。この場合の出現頻度の計算方法は、計算部104の処理で説明した通りである。
また、本実施形態では、判定部105は、他の文書における用語候補の最長一致を判定する。例えば、ある分割部分から複数の用語候補が取得された場合、判定部105は、当該複数の用語候補の各々について、他の文書に出現するか否かを判定する。判定部105は、他の文書に出現すると判定された用語候補が複数存在した場合、最長の用語候補についてのみ、用語辞書への登録対象とする。最長の用語候補が複数存在した場合には、これら複数の最長の用語候補の全てが用語辞書への登録対象となってもよいし、何れか1つのみが用語辞書への登録対象となってもよい。
[第1制限部]
第1制限部106は、制御部11を主として実現される。第1制限部106は、文書のうち、所定長未満の用語が用語辞書に登録されることを制限する。用語の長さとは、文字数である。所定長は、予め定められた長さであればよく、例えば、4文字程度であってもよいし、より長い閾値が設定されてもよい。ここでの制限とは、禁止又は防止と同じ意味である。
第1制限部106による制限の方法は、任意の方法を適用可能である。例えば、第1制限部106は、所定長未満の用語候補を取得部103に取得させないように制限してもよい。この場合、ベースファイルの文書のうち、所定長以上の部分だけが用語候補となり、所定長未満の部分については用語候補とはならない。また例えば、第1制限部106は、所定長未満の用語候補の出現頻度を計算部104に計算させないように制限してもよい。この場合、所定長以上の用語候補だけが出現頻度の計算対象となり、所定長未満の用語候補については出現頻度の計算対象とはならない。
また例えば、第1制限部106は、所定長未満の用語候補が他の文書に出現するか否かを判定部105に判定させないように制限してもよい。この場合、ベースファイルの文書のうち、所定長以上の用語候補だけが他の文書との判定対象となり、所定長未満の用語候補については他の文書との判定対象とはならない。また例えば、第1制限部106は、所定長未満の用語候補が本実施形態で記載した用語辞書への登録の条件を満たしたとしても、用語辞書に登録しないように制限してもよい。この場合、ベースファイルの文書のうち、所定長以上の用語候補だけが条件を満たした場合に用語辞書に登録され、所定長未満の用語候補については用語候補には条件を満たしても登録されない。
[第2制限部]
第2制限部107は、制御部11を主として実現される。第2制限部107は、文書のうち、数詞を含む用語が用語辞書に登録されることを制限する。数詞とは、数を示す名詞であり、例えば、算用数字(アラビア数字)又は漢数字である。制限対象となる用語は、数詞だけから構成される用語、数詞を1つでも含む用語、数詞の数が閾値以上の用語、又は数詞の割合が所定割合の用語である。本実施形態では、第2制限部107は、全て数詞からなる用語が用語辞書に登録されることを制限する。
第2制限部107による制限の方法は、任意の方法を適用可能である。例えば、第2制限部107は、数詞を含む用語候補を取得部103に取得させないように制限してもよい。この場合、ベースファイルの文書のうち、数詞を含まない部分だけが用語候補となり、数詞を含む部分については用語候補とはならない。また例えば、第2制限部107は、数詞を含む用語候補の出現頻度を計算部104に計算させないように制限してもよい。この場合、数詞を含まない用語候補だけが出現頻度の計算対象となり、数詞を含む用語候補については出現頻度の計算対象とはならない。
また例えば、第2制限部107は、数詞を含む用語候補が他の文書に出現するか否かを判定部105に判定させないように制限してもよい。この場合、ベースファイルの文書のうち、数詞を含まない用語候補だけが他の文書との判定対象となり、数詞を含む用語候補については他の文書との判定対象とはならない。また例えば、第2制限部107は、数詞を含む用語候補が本実施形態で記載した用語辞書への登録の条件を満たしたとしても、用語辞書に登録しないように制限してもよい。この場合、ベースファイルの文書のうち、数詞を含まない用語候補だけが条件を満たした場合に用語辞書に登録され、数詞を含む用語候補については用語候補には条件を満たしても登録されない。
[作成部]
作成部108は、制御部11を主として実現される。作成部108は、用語候補の出現頻度に基づいて、用語辞書を作成する。用語辞書の作成は、新規作成と更新の両方を意味する。このため、既存の用語辞書に新たな用語を登録(追加)することも、用語辞書を作成することに相当する。作成部108は、出現頻度が閾値未満の用語候補は用語辞書に登録せず、出現頻度が閾値以上の用語候補を用語辞書に登録する。即ち、作成部108は、出現頻度が閾値以上であることを条件として、用語候補を用語辞書に登録する。
なお、出現頻度の閾値は、固定値であってもよいし、可変値であってもよい。また、作成部108は、出現頻度の閾値を利用するのではなく、用語候補の出現頻度が高い順に所定個数の用語候補を特定し、用語辞書に登録してもよい。他にも例えば、作成部108は、用語候補の出現頻度の上位所定パーセントの用語候補を特定し、用語辞書に登録してもよい。
本実施形態では、作成部108は、用語候補の出現頻度と、判定部105の判定結果と、に基づいて、用語辞書を作成する。作成部108は、出現頻度だけでなく、判定部105の判定結果に更に基づいて、用語辞書を作成する。作成部108は、他の文書に出現していない用語候補は用語辞書に登録せず、他の文書に出現した用語候補を用語辞書に登録する。即ち、作成部108は、他の文書に出現することを条件として、用語候補を用語辞書に登録する。
また、本実施形態では、作成部108は、判定部105による最長一致の判定結果に基づいて、用語辞書を作成する。例えば、ある分割部分から取得された複数の用語候補が他の文書に出現した場合(又は、複数の用語候補が互いに部分一致する場合)、作成部108は、当該複数の用語候補のうち、最長の用語候補を用語辞書に登録し、それ以外の用語候補は用語辞書に登録しない。即ち、作成部108は、当該複数の用語候補のうち、最長であることを条件として、用語候補を用語辞書に登録する。
また、本実施形態では、第1制限部106により、所定長未満の用語候補が用語辞書に登録されることが制限されるので、作成部108は、所定長以上の用語候補を、用語辞書に登録する。作成部108は、所定長以上であることを条件として、用語候補を用語辞書に登録し、所定長未満の用語候補は、用語辞書に登録しない。
また、本実施形態では、第2制限部107により、数詞を含む用語が用語辞書に登録されることが制限されるので、作成部108は、数詞を含む用語ではない用語候補を、用語辞書に登録する。作成部108は、数詞を含む用語ではないことを条件として、用語候補を用語辞書に登録し、数詞を含む用語は、用語辞書に登録しない。
また、本実施形態の文書は、建設業における複数の工事種別の何れかに関する内容が記述されており、用語辞書は、建設業に関する用語が登録される辞書であり、作成部108は、工事種別ごとに、用語辞書を作成する。作成部108は、工事種別ごとに、当該工事種別の文書から取得された用語候補を、当該工事種別の用語辞書に登録する。即ち、作成部108は、複数の工事種別の各々に専用の用語辞書を作成することになる。
[処理実行部]
処理実行部109は、制御部11を主として実現される。処理実行部109は、辞書データベースDB2に格納された用語辞書に基づいて、所定の処理を実行する。所定の処理は、用語辞書を利用して行われる処理であればよく、本実施形態では、類似文書の検索である場合を説明する。なお、所定の処理は、他の処理であってもよく、例えば、キーワードの抽出であってもよい。例えば、処理実行部109は、辞書データベースDB2に格納された用語辞書を利用して、文書データベースDB1に格納された複数の文書の各々の特徴量を計算する。特徴量は、文書の特徴を定量化した情報であり、例えば、他次元ベクトルによって表現される。処理実行部109は、文書ごとに、用語辞書に格納された用語の出現頻度を計算し、各用語の出現頻度を特徴量として取得する。処理実行部109は、ある文書の特徴量と他の文書の特徴量が類似する場合、これらの文書が類似すると判定する。類似判定自体は、コサイン類似度等の公知の手法を適用可能である。
[4.本実施形態において実行される処理]
図6は、用語辞書作成装置10で実行される処理を示すフロー図である。以降説明する処理は、制御部11が記憶部12に記憶されたプログラムに従って動作することによって実行される。また、以降説明する処理は、図3に示す機能ブロックにより実行される処理の一例である。
図6に示すように、用語辞書作成装置10において、制御部11は、複数の工事種別のうち、用語辞書の作成対象となる工事種別を特定する(S1)。用語辞書の作成対象となる工事種別は、任意の方法によって特定されてよく、例えば、ユーザが操作部14を操作して指定してもよいし、まだ用語辞書を作成していない工事種別又は用語辞書を作成してから一定時間が経過した工事種別が自動的に選択されてもよい。
制御部11は、文書データベースDB1を参照し、S1で特定した工事種別の文書を取得する(S2)。S2においては、ユーザが操作部14から文書の取得数nを指定した場合、制御部11は、用語辞書の作成対象となる工事種別に関連付けられた文書のうち、n個の文書を取得する。なお、ユーザが文書の取得数nを指定しない場合には、制御部11は、予め定められた数の文書を取得したり、用語辞書の作成対象となる工事種別に関連付けられた全ての文書を取得したりすればよい。また、ユーザが文書自体を指定してもよい。
制御部11は、S2で取得した文書に対し、形態素解析を実行する(S3)。S3においては、制御部11は、形態素解析用の辞書に基づいて、S2で取得した文書から形態素を抽出し、形態素リストL1を作成する。S2において複数の文書が取得された場合には、制御部11は、文書ごとに形態素リストL1を作成する。作成された形態素リストL1は、記憶部12に一時的に記録される。
制御部11は、S3で作成した形態素リストL1を不要語で分割して不要語を除去し、用語候補を取得する(S4)。S4においては、制御部11は、形態素リストL1の中から不要語を特定し、不要語の位置で形態素リストL1を分割したうえで、不要語を除去することによって、分割後リストL2を取得する。S2において複数の文書が取得された場合には、制御部11は、文書ごとに分割後リストL2を作成する。作成された分割後リストL2は、文書に関連付けられて記憶部12に一時的に記録される。
制御部11は、S2で取得した文書の文字数を計算する(S5)。S5においては、制御部11は、S2で取得した文書から不要語を除去したうえで文字数を計算する。S2において複数の文書が取得された場合には、制御部11は、文書ごとに文字数を計算する。計算された文字数は、文書に関連付けられて記憶部12に一時的に記録される。
制御部11は、カウンタ変数kに1を代入する(S6)。制御部11は、文字数がk番目に多い文書における用語候補の出現頻度を計算する(S7)。S7においては、制御部11は、用語候補ごとに、文字数がk番目に多い文書における出現頻度を計算し、文字数がk番目に多い文書の関係辞書を作成する。
制御部11は、文字数がk番目に多い文書の関係辞書に格納された用語候補ごとに、文字数がk番目以外の他の文書に出現するか否かを判定する(S8)。S8においては、制御部11は、文字数がk番目に多い文書の関係辞書に格納された用語候補ごとに、当該用語候補をクエリとして他の文書を検索し、当該用語候補がヒットしたか否かを判定する。先述したように、本実施形態では、S8において最長一致に基づく判定が実行される。
制御部11は、最長一致に基づく用語候補と出現頻度を記憶部12に一時的に記録する(S9)。S9においては、制御部11は、文字数がk番目に多い文書の関係辞書に格納された用語候補のうち、最長一致となった用語候補とその出現頻度を記憶部12に一時的に記録する。
制御部11は、カウンタ変数kをインクリメントする(S10)。制御部11は、カウンタ変数kの値が文書の取得数nよりも大きいか否かを判定する(S11)。カウンタ変数kの値がnよりも大きいと判定されない場合(S11;N)、S7の処理に戻る。この場合、次に文字数が多い文書について、S7〜S9の処理が実行される。
一方、カウンタ変数kの値がnよりも大きくなったと判定された場合(S11;Y)、制御部11は、最長一致に基づく用語候補のうち、出現頻度が閾値以上の用語候補に基づいて、用語辞書を作成し(S12)、本処理は終了する。S12においては、制御部11は、文字数が1番目〜n番目の各々の文書について、S9の処理で記録された出現頻度が閾値以上の用語候補を含む用語辞書を作成し、S1で特定された工事種別に関連付けて辞書データベースDB2に格納する。
以上説明した用語辞書作成装置10によれば、文書から抽出された形態素に基づいて、文書の中で名詞が連続する部分である用語候補を取得し、用語候補の出現頻度に基づいて、用語辞書を作成することによって、複数の名詞が連続した長い用語が新たに登場したとしても、精度の高い用語辞書を容易に作成することができる。精度の高い用語辞書を作成することによって、類似文書検索などの所定の処理を実行する際に、従来技術で説明したような複雑な処理を実行する必要がなくなり、比較的簡易な処理で済むようになる。このため、所定の処理を実行するコンピュータ(例えば、用語辞書作成装置10)の処理負荷を軽減し、所定の処理をより高速化することもできる。
また、用語辞書作成装置10は、文書から抽出された形態素が順番に並ぶ形態素リストL1を、名詞以外の品詞の形態素に基づいて分割し、形態素リストL1における分割部分の全部又は一部を、用語候補として取得することによって、簡易な処理によって、不要語が混じることのない正確な用語候補を取得することができる。
また、用語辞書作成装置10は、分割部分ごとに、語順を保つ名詞の組み合わせの全てを、用語候補として特定することによって、より多様な用語候補を取得し、用語辞書の精度を高めることができる。
また、用語辞書作成装置10は、文書とは異なる他の文書に、用語候補が出現するか否かを判定し、当該判定結果に基づいて用語辞書を作成することによって、複数の文書で登場する汎用性の高い用語を用語辞書に登録し、用語辞書の精度を効果的に高めることができる。
また、用語辞書作成装置10は、他の文書における用語候補の最長一致を判定し、最長一致の判定結果に基づいて、用語辞書を作成することによって、より長い用語を用語辞書に登録し、用語辞書の精度を効果的に高めることができる。
また、用語辞書作成装置10は、複数の文書の各々の文字数に基づいて、ベースファイルとなる文書を選択することによって、より多くの文字数の文書の中から多様な用語候補を取得し、用語辞書の精度を効果的に高めることができる。
また、用語辞書作成装置10は、所定長未満の用語が用語辞書に登録されることを制限し、所定長以上の前記用語候補を用語辞書に登録することによって、より長い用語を用語辞書に登録し、用語辞書の精度を効果的に高めることができる。
また、用語辞書作成装置10は、数詞を含む用語が用語辞書に登録されることを制限し、数詞を含む用語ではない用語候補を用語辞書に登録することによって、例えば数詞だけが羅列されたような意味のない用語が登録されることを防止し、用語辞書の精度を効果的に高めることができる。
また、用語辞書作成装置10は、建設業における複数の工事種別の何れかに関する内容が記述された文書に基づいて、建設用語が登録された用語辞書を作成することによって、名詞が羅列された用語が生まれることの多い建築用語の用語辞書を容易に作成することができる。
[5.変形例]
なお、本発明は、以上に説明した実施の形態に限定されるものではない。本発明の趣旨を逸脱しない範囲で、適宜変更可能である。
例えば、実施形態では、形態素リストL1を不要語で分割することによって分割部分を取得し、用語候補が取得される場合を説明したが、用語辞書作成装置10は、名詞が連続する部分を用語候補としてもよく、用語候補の取得方法は、実施形態で説明した例に限られない。例えば、用語辞書作成装置10は、形態素リストL1に示された形態素を、最初から順番に参照して名詞の形態素を特定し、名詞以外の形態素が見つかるまでの間にある形態素を分割部分としてもよい。
また例えば、用語辞書作成装置10は、分割部分の名詞の全通りの組み合わせではなく、一部の組み合わせだけを用語候補としてもよい。また例えば、用語辞書作成装置10は、最長一致に特に基づかずに、他の文書に出現した用語候補の全部又は一部を用語辞書に登録してもよい。また例えば、用語辞書作成装置10は、文字列長に特に関係なく、用語候補を用語辞書に登録してもよいし、用語辞書に登録する用語候補の文字列長に上限値を設けてもよい。また例えば、用語辞書作成装置10は、数詞が含まれていたとしても、用語候補を用語辞書に登録してもよい。
また例えば、実施形態では、建設用語の用語辞書が作成される場合を説明したが、他の専門分野の用語辞書が作成されてもよい。例えば、医療、製造業、IT関連、又は飲食業といった任意の分野の文書に基づいて、これらの分野の用語辞書が作成されてもよい。他の専門分野としては、名詞が連続する用語が用いられることが多い分野が好ましいが、用語辞書作成装置10は、他の分野の用語辞書の用語辞書を作成してもよい。また例えば、用語辞書作成装置10は、特定の専門分野ではない用語辞書を作成してもよい。
また例えば、実施形態では、用語辞書作成装置10によって各機能が実現される場合を説明したが、例えば、データ記憶部100は、サーバコンピュータによって実現されてもよい。また例えば、用語辞書作成装置10は、サーバコンピュータによって実現され、ユーザが操作する端末がネットワークを介して用語辞書作成装置10の機能を利用してもよい。
10 用語辞書作成装置、11 制御部、12 記憶部、13 通信部、14 操作部、15 表示部、100 データ記憶部、101 選択部、102 実行部、103 取得部、104 計算部、105 判定部、108 作成部、109 処理実行部、DB1 文書データベース、DB2 辞書データベース。

Claims (11)

  1. 文書に対し、形態素解析を実行する実行手段と、
    前記文書から抽出された形態素に基づいて、前記文書の中で名詞が連続する部分を用語候補として取得する取得手段と、
    前記用語候補の出現頻度を計算する計算手段と、
    前記用語候補の出現頻度に基づいて、用語辞書を作成する作成手段と、
    を含むことを特徴とする用語辞書作成装置。
  2. 前記取得手段は、
    前記文書から抽出された形態素が順番に並ぶリストを、名詞以外の品詞の形態素に基づいて分割し、
    前記リストにおける分割部分の全部又は一部を、前記用語候補として取得する、
    ことを特徴とする請求項1に記載の用語辞書作成装置。
  3. 前記取得手段は、前記分割部分ごとに、語順を保つ名詞の組み合わせの全てを、前記用語候補として特定する、
    ことを特徴とする請求項2に記載の用語辞書作成装置。
  4. 前記用語辞書作成装置は、前記文書とは異なる他の文書に、前記用語候補が出現するか否かを判定する判定手段を更に含み、
    前記作成手段は、前記用語候補の出現頻度と、前記判定手段の判定結果と、に基づいて、前記用語辞書を作成する、
    ことを特徴とする請求項1〜3の何れかに記載の用語辞書作成装置。
  5. 前記判定手段は、前記他の文書における前記用語候補の最長一致を判定し、
    前記作成手段は、前記判定手段による最長一致の判定結果に基づいて、前記用語辞書を作成する、
    ことを特徴とする請求項4に記載の用語辞書作成装置。
  6. 前記用語辞書作成装置は、複数の前記文書の各々の文字数に基づいて、前記複数の文書の中から、前記用語候補の抽出対象となる文書を選択する選択手段を更に含み、
    前記実行手段は、前記選択手段により選択された文書に対し、形態素解析を実行し、
    前記取得手段は、前記選択手段により選択された文書の中から、前記用語候補を取得する、
    ことを特徴とする請求項1〜5の何れかに記載の用語辞書作成装置。
  7. 前記用語辞書作成装置は、前記文書のうち、所定長未満の用語が前記用語辞書に登録されることを制限する第1制限手段を更に含み、
    前記作成手段は、前記所定長以上の前記用語候補を、前記用語辞書に登録する、
    ことを特徴とする請求項1〜6の何れかに記載の用語辞書作成装置。
  8. 前記用語辞書作成装置は、前記文書のうち、数詞を含む用語が前記用語辞書に登録されることを制限する第2制限手段を更に含み、
    前記作成手段は、前記数詞を含む用語ではない前記用語候補を、前記用語辞書に登録する、
    ことを特徴とする請求項1〜7の何れかに記載の用語辞書作成装置。
  9. 前記文書は、建設業における複数の工事種別の何れかに関する内容が記述されており、
    前記用語辞書は、建設用語が登録される辞書であり、
    前記作成手段は、前記工事種別ごとに、前記用語辞書を作成する、
    ことを特徴とする請求項1〜8の何れかに記載の用語辞書作成装置。
  10. 文書に対し、形態素解析を実行する実行ステップと、
    前記文書から抽出された形態素に基づいて、前記文書の中で名詞が連続する部分を用語候補として取得する取得ステップと、
    前記用語候補の出現頻度を計算する計算ステップと、
    前記用語候補の出現頻度に基づいて、用語辞書を作成する作成ステップと、
    を含むことを特徴とする用語辞書作成方法。
  11. 文書に対し、形態素解析を実行する実行手段と、
    前記文書から抽出された形態素に基づいて、前記文書の中で名詞が連続する部分を用語候補として取得する取得手段と、
    前記用語候補の出現頻度を計算する計算手段と、
    前記用語候補の出現頻度に基づいて、用語辞書を作成する作成手段と、
    としてコンピュータを機能させるためのプログラム。
JP2019145119A 2019-08-07 2019-08-07 用語辞書作成装置、用語辞書作成方法、及びプログラム Active JP7361525B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019145119A JP7361525B2 (ja) 2019-08-07 2019-08-07 用語辞書作成装置、用語辞書作成方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019145119A JP7361525B2 (ja) 2019-08-07 2019-08-07 用語辞書作成装置、用語辞書作成方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2021026586A true JP2021026586A (ja) 2021-02-22
JP7361525B2 JP7361525B2 (ja) 2023-10-16

Family

ID=74664732

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019145119A Active JP7361525B2 (ja) 2019-08-07 2019-08-07 用語辞書作成装置、用語辞書作成方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP7361525B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10320395A (ja) * 1997-05-16 1998-12-04 Brother Ind Ltd 機械翻訳装置および機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002230001A (ja) * 2001-02-02 2002-08-16 Hitachi Ltd プラント建設作業情報検索システム
JP2004318480A (ja) * 2003-04-16 2004-11-11 Sony Corp 電子機器装置、新語抽出方法、およびプログラム
JP2013174995A (ja) * 2012-02-24 2013-09-05 Nippon Hoso Kyokai <Nhk> 基本語彙抽出装置、及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10320395A (ja) * 1997-05-16 1998-12-04 Brother Ind Ltd 機械翻訳装置および機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002230001A (ja) * 2001-02-02 2002-08-16 Hitachi Ltd プラント建設作業情報検索システム
JP2004318480A (ja) * 2003-04-16 2004-11-11 Sony Corp 電子機器装置、新語抽出方法、およびプログラム
JP2013174995A (ja) * 2012-02-24 2013-09-05 Nippon Hoso Kyokai <Nhk> 基本語彙抽出装置、及びプログラム

Also Published As

Publication number Publication date
JP7361525B2 (ja) 2023-10-16

Similar Documents

Publication Publication Date Title
Gomez-Jauregui et al. Information management and improvement of citation indices
RU2613846C2 (ru) Метод и система извлечения данных из изображений слабоструктурированных документов
JP4997892B2 (ja) 検索システム、検索方法及び検索プログラム
CN111428503B (zh) 同名人物的识别处理方法及处理装置
JP3372532B2 (ja) 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体
JP2009193219A (ja) インデックス作成装置、その方法、プログラム及び記録媒体
US8346745B2 (en) Information retrieval method, computer readable medium and information retrieval apparatus
Laparra et al. A dataset and evaluation framework for complex geographical description parsing
JP7361525B2 (ja) 用語辞書作成装置、用語辞書作成方法、及びプログラム
CN108614821B (zh) 地质资料互联互查系统
JP3442422B2 (ja) 同義語情報作成装置および方法
JP5826148B2 (ja) 図面管理サーバ及びこれを用いた図面管理システム
CN112818645A (zh) 一种化学信息抽取方法、装置、设备及存储介质
CN114462378A (zh) 科技项目查重方法、系统、计算机设备及存储介质
JP5326781B2 (ja) 抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラム
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
CN110457435A (zh) 一种专利新颖性分析系统及其分析方法
Malak Text Preprocessing: A Tool of Information Visualization and Digital Humanities
JP2009181524A (ja) 文書検索システム及び文書検索方法
JP3025847B2 (ja) 電子化辞書検索方法
JP2003228578A (ja) 情報検索方法及び情報検索装置及び情報検索装置の制御プログラム
JP2010113511A (ja) 感性情報抽出・検索装置、その方法およびプログラム
JP6162074B2 (ja) 検索キー作成方法及びその装置
JP2840258B2 (ja) 機械翻訳システムの対訳辞書及び共起関係辞書の作成方法
JP4049967B2 (ja) データベース処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220608

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230427

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230509

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230703

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230912

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231003

R150 Certificate of patent or registration of utility model

Ref document number: 7361525

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150