JP2021026586A - 用語辞書作成装置、用語辞書作成方法、及びプログラム - Google Patents
用語辞書作成装置、用語辞書作成方法、及びプログラム Download PDFInfo
- Publication number
- JP2021026586A JP2021026586A JP2019145119A JP2019145119A JP2021026586A JP 2021026586 A JP2021026586 A JP 2021026586A JP 2019145119 A JP2019145119 A JP 2019145119A JP 2019145119 A JP2019145119 A JP 2019145119A JP 2021026586 A JP2021026586 A JP 2021026586A
- Authority
- JP
- Japan
- Prior art keywords
- term
- document
- dictionary
- term dictionary
- candidates
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000000877 morphologic effect Effects 0.000 claims abstract description 45
- 238000004458 analytical method Methods 0.000 claims abstract description 41
- 238000010276 construction Methods 0.000 claims description 92
- 238000004364 calculation method Methods 0.000 claims description 24
- 238000012545 processing Methods 0.000 description 16
- 238000013500 data storage Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000002347 injection Methods 0.000 description 6
- 239000007924 injection Substances 0.000 description 6
- 230000007774 longterm Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000003756 stirring Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
以下、本発明に係る実施形態について、図面を参照しつつ説明する。図1は、実施形態に係る用語辞書作成装置のハードウェア構成を示す図である。用語辞書作成装置10は、ユーザが操作するコンピュータであり、例えば、パーソナルコンピュータ、携帯情報端末(タブレット型コンピュータを含む)、又は携帯電話機(スマートフォンを含む)等である。図1に示すように、例えば、用語辞書作成装置10は、制御部11、記憶部12、通信部13、操作部14、及び表示部15を含む。
図2は、用語辞書作成装置10が実行する処理の概要を示す図である。本実施形態の用語辞書作成装置10は、複数の文書の各々に対して形態素解析を実行し、名詞が連続する部分である用語候補の出現頻度に基づいて、用語辞書を作成する。
図3は、用語辞書作成装置10で実現される機能の一例を示す機能ブロック図である。図3に示すように、用語辞書作成装置10では、データ記憶部100、選択部101、実行部102、取得部103、計算部104、判定部105、第1制限部106、第2制限部107、作成部108、及び処理実行部109が実現される。
データ記憶部100は、記憶部12を主として実現される。データ記憶部100は、本実施形態で説明する処理の実行に必要なデータを記憶する。ここでは、データ記憶部100が記憶するデータとして、文書データベースDB1と、辞書データベースDB2と、について説明する。
選択部101は、制御部11を主として実現される。選択部101は、文書データベースDB1の中から、用語候補の抽出対象となる文書(ベースファイル)を選択する。抽出対象となる文書は、文書データベースDB1に格納された全ての文書であってもよいし、ユーザにより指定された文書であってもよいが、本実施形態では、選択部101が、複数の文書の各々の文字数に基づいて、複数の文書の中から、用語候補の抽出対象となる文書を選択する場合を説明する。
実行部102は、制御部11を主として実現される。実行部102は、文書に対し、形態素解析を実行する。形態素解析が実行される文書は、文書データベースDB1に格納された全ての文書であってもよいし、ユーザにより指定された文書であってもよいが、本実施形態では選択部101が実現されるので、実行部102は、選択部101により選択された文書に対し、形態素解析を実行する。
取得部103は、制御部11を主として実現される。取得部103は、文書から抽出された形態素(例えば、形態素リストL1に示された形態素)に基づいて、文書の中で名詞が連続する部分(例えば、分割後リストL2に示された連続部分の全部又は一部)を用語候補として取得する。
計算部104は、制御部11を主として実現される。計算部104は、用語候補の出現頻度を計算する。本実施形態では、計算部104は、用語候補の取得元の文書(用語候補が含まれていた文書)における出現頻度を計算する場合を説明するが、他の文書における出現頻度を計算してもよいし、これらの両方における出現頻度を計算してもよい。例えば、計算部104は、分割後リストL2から取得された用語候補ごとに、当該用語候補の取得元の文書における出現頻度を計算する。
判定部105は、制御部11を主として実現される。判定部105は、用語候補が取得された文書とは異なる他の文書に、用語候補が出現するか否かを判定する。他の文書は、用語候補が取得された文書以外の文書であればよく、1つであってもよいし、複数であってもよい。例えば、判定部105は、文書データベースDB1に格納された全ての他の文書を判定対象としてもよいし、一部の他の文書を判定対象としてもよい。本実施形態では、工事種別ごとに用語辞書が作成されるので、判定部105は、用語候補が取得された文書と同じ工事種別の他の文書に、用語候補が出現するか否かを判定する。
第1制限部106は、制御部11を主として実現される。第1制限部106は、文書のうち、所定長未満の用語が用語辞書に登録されることを制限する。用語の長さとは、文字数である。所定長は、予め定められた長さであればよく、例えば、4文字程度であってもよいし、より長い閾値が設定されてもよい。ここでの制限とは、禁止又は防止と同じ意味である。
第2制限部107は、制御部11を主として実現される。第2制限部107は、文書のうち、数詞を含む用語が用語辞書に登録されることを制限する。数詞とは、数を示す名詞であり、例えば、算用数字(アラビア数字)又は漢数字である。制限対象となる用語は、数詞だけから構成される用語、数詞を1つでも含む用語、数詞の数が閾値以上の用語、又は数詞の割合が所定割合の用語である。本実施形態では、第2制限部107は、全て数詞からなる用語が用語辞書に登録されることを制限する。
作成部108は、制御部11を主として実現される。作成部108は、用語候補の出現頻度に基づいて、用語辞書を作成する。用語辞書の作成は、新規作成と更新の両方を意味する。このため、既存の用語辞書に新たな用語を登録(追加)することも、用語辞書を作成することに相当する。作成部108は、出現頻度が閾値未満の用語候補は用語辞書に登録せず、出現頻度が閾値以上の用語候補を用語辞書に登録する。即ち、作成部108は、出現頻度が閾値以上であることを条件として、用語候補を用語辞書に登録する。
処理実行部109は、制御部11を主として実現される。処理実行部109は、辞書データベースDB2に格納された用語辞書に基づいて、所定の処理を実行する。所定の処理は、用語辞書を利用して行われる処理であればよく、本実施形態では、類似文書の検索である場合を説明する。なお、所定の処理は、他の処理であってもよく、例えば、キーワードの抽出であってもよい。例えば、処理実行部109は、辞書データベースDB2に格納された用語辞書を利用して、文書データベースDB1に格納された複数の文書の各々の特徴量を計算する。特徴量は、文書の特徴を定量化した情報であり、例えば、他次元ベクトルによって表現される。処理実行部109は、文書ごとに、用語辞書に格納された用語の出現頻度を計算し、各用語の出現頻度を特徴量として取得する。処理実行部109は、ある文書の特徴量と他の文書の特徴量が類似する場合、これらの文書が類似すると判定する。類似判定自体は、コサイン類似度等の公知の手法を適用可能である。
図6は、用語辞書作成装置10で実行される処理を示すフロー図である。以降説明する処理は、制御部11が記憶部12に記憶されたプログラムに従って動作することによって実行される。また、以降説明する処理は、図3に示す機能ブロックにより実行される処理の一例である。
なお、本発明は、以上に説明した実施の形態に限定されるものではない。本発明の趣旨を逸脱しない範囲で、適宜変更可能である。
Claims (11)
- 文書に対し、形態素解析を実行する実行手段と、
前記文書から抽出された形態素に基づいて、前記文書の中で名詞が連続する部分を用語候補として取得する取得手段と、
前記用語候補の出現頻度を計算する計算手段と、
前記用語候補の出現頻度に基づいて、用語辞書を作成する作成手段と、
を含むことを特徴とする用語辞書作成装置。 - 前記取得手段は、
前記文書から抽出された形態素が順番に並ぶリストを、名詞以外の品詞の形態素に基づいて分割し、
前記リストにおける分割部分の全部又は一部を、前記用語候補として取得する、
ことを特徴とする請求項1に記載の用語辞書作成装置。 - 前記取得手段は、前記分割部分ごとに、語順を保つ名詞の組み合わせの全てを、前記用語候補として特定する、
ことを特徴とする請求項2に記載の用語辞書作成装置。 - 前記用語辞書作成装置は、前記文書とは異なる他の文書に、前記用語候補が出現するか否かを判定する判定手段を更に含み、
前記作成手段は、前記用語候補の出現頻度と、前記判定手段の判定結果と、に基づいて、前記用語辞書を作成する、
ことを特徴とする請求項1〜3の何れかに記載の用語辞書作成装置。 - 前記判定手段は、前記他の文書における前記用語候補の最長一致を判定し、
前記作成手段は、前記判定手段による最長一致の判定結果に基づいて、前記用語辞書を作成する、
ことを特徴とする請求項4に記載の用語辞書作成装置。 - 前記用語辞書作成装置は、複数の前記文書の各々の文字数に基づいて、前記複数の文書の中から、前記用語候補の抽出対象となる文書を選択する選択手段を更に含み、
前記実行手段は、前記選択手段により選択された文書に対し、形態素解析を実行し、
前記取得手段は、前記選択手段により選択された文書の中から、前記用語候補を取得する、
ことを特徴とする請求項1〜5の何れかに記載の用語辞書作成装置。 - 前記用語辞書作成装置は、前記文書のうち、所定長未満の用語が前記用語辞書に登録されることを制限する第1制限手段を更に含み、
前記作成手段は、前記所定長以上の前記用語候補を、前記用語辞書に登録する、
ことを特徴とする請求項1〜6の何れかに記載の用語辞書作成装置。 - 前記用語辞書作成装置は、前記文書のうち、数詞を含む用語が前記用語辞書に登録されることを制限する第2制限手段を更に含み、
前記作成手段は、前記数詞を含む用語ではない前記用語候補を、前記用語辞書に登録する、
ことを特徴とする請求項1〜7の何れかに記載の用語辞書作成装置。 - 前記文書は、建設業における複数の工事種別の何れかに関する内容が記述されており、
前記用語辞書は、建設用語が登録される辞書であり、
前記作成手段は、前記工事種別ごとに、前記用語辞書を作成する、
ことを特徴とする請求項1〜8の何れかに記載の用語辞書作成装置。 - 文書に対し、形態素解析を実行する実行ステップと、
前記文書から抽出された形態素に基づいて、前記文書の中で名詞が連続する部分を用語候補として取得する取得ステップと、
前記用語候補の出現頻度を計算する計算ステップと、
前記用語候補の出現頻度に基づいて、用語辞書を作成する作成ステップと、
を含むことを特徴とする用語辞書作成方法。 - 文書に対し、形態素解析を実行する実行手段と、
前記文書から抽出された形態素に基づいて、前記文書の中で名詞が連続する部分を用語候補として取得する取得手段と、
前記用語候補の出現頻度を計算する計算手段と、
前記用語候補の出現頻度に基づいて、用語辞書を作成する作成手段と、
としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019145119A JP7361525B2 (ja) | 2019-08-07 | 2019-08-07 | 用語辞書作成装置、用語辞書作成方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019145119A JP7361525B2 (ja) | 2019-08-07 | 2019-08-07 | 用語辞書作成装置、用語辞書作成方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021026586A true JP2021026586A (ja) | 2021-02-22 |
JP7361525B2 JP7361525B2 (ja) | 2023-10-16 |
Family
ID=74664732
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019145119A Active JP7361525B2 (ja) | 2019-08-07 | 2019-08-07 | 用語辞書作成装置、用語辞書作成方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7361525B2 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10320395A (ja) * | 1997-05-16 | 1998-12-04 | Brother Ind Ltd | 機械翻訳装置および機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2002230001A (ja) * | 2001-02-02 | 2002-08-16 | Hitachi Ltd | プラント建設作業情報検索システム |
JP2004318480A (ja) * | 2003-04-16 | 2004-11-11 | Sony Corp | 電子機器装置、新語抽出方法、およびプログラム |
JP2013174995A (ja) * | 2012-02-24 | 2013-09-05 | Nippon Hoso Kyokai <Nhk> | 基本語彙抽出装置、及びプログラム |
-
2019
- 2019-08-07 JP JP2019145119A patent/JP7361525B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10320395A (ja) * | 1997-05-16 | 1998-12-04 | Brother Ind Ltd | 機械翻訳装置および機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2002230001A (ja) * | 2001-02-02 | 2002-08-16 | Hitachi Ltd | プラント建設作業情報検索システム |
JP2004318480A (ja) * | 2003-04-16 | 2004-11-11 | Sony Corp | 電子機器装置、新語抽出方法、およびプログラム |
JP2013174995A (ja) * | 2012-02-24 | 2013-09-05 | Nippon Hoso Kyokai <Nhk> | 基本語彙抽出装置、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP7361525B2 (ja) | 2023-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gomez-Jauregui et al. | Information management and improvement of citation indices | |
RU2613846C2 (ru) | Метод и система извлечения данных из изображений слабоструктурированных документов | |
JP4997892B2 (ja) | 検索システム、検索方法及び検索プログラム | |
CN111428503B (zh) | 同名人物的识别处理方法及处理装置 | |
JP3372532B2 (ja) | 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体 | |
JP2009193219A (ja) | インデックス作成装置、その方法、プログラム及び記録媒体 | |
US8346745B2 (en) | Information retrieval method, computer readable medium and information retrieval apparatus | |
Laparra et al. | A dataset and evaluation framework for complex geographical description parsing | |
JP7361525B2 (ja) | 用語辞書作成装置、用語辞書作成方法、及びプログラム | |
CN108614821B (zh) | 地质资料互联互查系统 | |
JP3442422B2 (ja) | 同義語情報作成装置および方法 | |
JP5826148B2 (ja) | 図面管理サーバ及びこれを用いた図面管理システム | |
CN112818645A (zh) | 一种化学信息抽取方法、装置、设备及存储介质 | |
CN114462378A (zh) | 科技项目查重方法、系统、计算机设备及存储介质 | |
JP5326781B2 (ja) | 抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラム | |
JP6181890B2 (ja) | 文献解析装置、文献解析方法およびプログラム | |
CN110457435A (zh) | 一种专利新颖性分析系统及其分析方法 | |
Malak | Text Preprocessing: A Tool of Information Visualization and Digital Humanities | |
JP2009181524A (ja) | 文書検索システム及び文書検索方法 | |
JP3025847B2 (ja) | 電子化辞書検索方法 | |
JP2003228578A (ja) | 情報検索方法及び情報検索装置及び情報検索装置の制御プログラム | |
JP2010113511A (ja) | 感性情報抽出・検索装置、その方法およびプログラム | |
JP6162074B2 (ja) | 検索キー作成方法及びその装置 | |
JP2840258B2 (ja) | 機械翻訳システムの対訳辞書及び共起関係辞書の作成方法 | |
JP4049967B2 (ja) | データベース処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220608 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230427 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230509 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230703 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230912 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231003 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7361525 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |