JP2016038596A - 固有用語候補抽出装置、固有用語候補抽出方法、及び固有用語候補抽出プログラム - Google Patents
固有用語候補抽出装置、固有用語候補抽出方法、及び固有用語候補抽出プログラム Download PDFInfo
- Publication number
- JP2016038596A JP2016038596A JP2014159224A JP2014159224A JP2016038596A JP 2016038596 A JP2016038596 A JP 2016038596A JP 2014159224 A JP2014159224 A JP 2014159224A JP 2014159224 A JP2014159224 A JP 2014159224A JP 2016038596 A JP2016038596 A JP 2016038596A
- Authority
- JP
- Japan
- Prior art keywords
- term
- word
- registered
- document
- compound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
【解決手段】概ね1人の著者により記述された部分に分割された文書に含まれる第1の複合語のうち、文書に固有な用語に関する用語集に未登録の第2の複合語を抽出する未登録語抽出手段と、第2の複合語のうち、用語集に登録済みの用語と文字列又は意味が類似する第3の複合語であって、且つ部分における出現分布が登録済みの用語と類似しない第4の複合語を登録済みの用語の表記揺れの語であると判定する表記揺れ判定手段と、第4の複合語を除く第2の複合語を用語集に登録されるべき用語の候補として抽出する用語候補抽出手段と、を備える。
【選択図】 図1
Description
(発明の目的)
本発明の目的は、文書に固有の用語を含む文書において、類似する2つの語が、互いに異なる意味を有する用語であるのか、あるいは一方の語が用語で他方の語が用語の表記揺れの語であるのかを判別することができる固有用語候補抽出装置、固有用語候補抽出方法、及び固有用語候補抽出プログラムを提供することにある。
(第1の実施形態)
本実施形態に係る構成について説明する。
同一の文書に含まれる部分であっても、著者が異なる部分では、同一の意味を意図して表記の揺れのうちの1つの複合語が使用される可能性が高い。そのため、2つの複合語の出現分布の類似度は低い。
この場合には、2つの複合語のそれぞれは、文書に固有の用語である。
2つの固有の用語は文書の同じ部分で共起しやすい固有の用語の対である。2つの固有の用語の文字列又は意味が類似するということは、関連性が近い内容に言及している可能性が高いので、2つの固有の用語は文書の同じ部分で共起しやすい。つまり、この場合は生起しやすい。
2つの固有の用語は文書の同じ部分で共起しにくい固有の用語の対である。ところが、2つの固有の用語の文字列又は意味が類似するということは、関連性が近い内容に言及している可能性が高いので、2つの固有の用語は文書の同じ部分で共起しやすいことが期待される。つまり、この場合は生起しにくい。
(第2の実施形態)
次に、上述した本発明の第1の実施形態を基本とする、本発明の第2の実施形態について、図面を参照して詳細に説明する。以下の説明において、第1の実施形態と同等の構成要素には同じ符号を付し、適宜説明を省略する。
(付記1)
概ね1人の著者により記述された部分に分割された、文書に含まれる第1の複合語のうち、前記文書に固有な用語に関する用語集に未登録の第2の複合語を抽出する未登録語抽出手段と、
前記第2の複合語のうち、前記用語集に登録済みの用語と文字列又は意味が類似する第3の複合語であって、且つ前記部分における出現分布が前記登録済みの用語と類似しない第4の複合語を前記登録済みの用語の表記揺れの語であると判定する表記揺れ判定手段と、
前記第4の複合語を除く前記第2の複合語を前記用語集に登録されるべき用語の候補として抽出する用語候補抽出手段と、
を備えたことを特徴とする固有用語候補抽出装置。
(付記2)
前記表記揺れ判定手段は、前記第2の複合語を表す文字列と前記登録済みの用語を表す文字列との間の第1の距離と負の相関を持つ第1の類似度が第1の閾値より大きい場合に、前記第2の複合語と前記登録済みの用語との文字列が類似すると判定する
付記1に記載の固有用語候補抽出装置。
(付記3)
前記第1の距離は、前記第2の複合語を表す文字列と前記登録済みの用語を表す文字列との間の編集距離である付記2に記載の固有用語候補抽出装置。
(付記4)
前記表記揺れ判定手段は、前記第2の複合語に含まれる第1の構成語と前記登録済みの用語に含まれる第2の構成語との間の第2の距離に基づいて、前記第2の複合語と前記登録済みの用語との第3の距離と負の相関を持つ第2の類似度が第2の閾値より大きい場合に、前記第2の複合語と前記登録済みの用語との意味が類似すると判定する
付記1乃至3のいずれか1項に記載の固有用語候補抽出装置。
(付記5)
前記第2の距離は、単語間の階層関係が木構造を有する単語分類辞書における、前記第2の複合語に含まれる単語と前記登録済みの用語に含まれる単語との間を結ぶ枝の数である付記4に記載の固有用語候補抽出装置。
(付記6)
前記第3の距離は、前記第1の構成語との前記第2の距離が最も近い前記第2の構成語と、前記第1の構成語との前記第2の距離の、前記第2の複合語における前記第1の構成語に関する総和である付記4又は5に記載の固有用語候補抽出装置。
(付記7)
前記出現分布は、前記部分毎に、前記登録済みの用語の出現頻度、または前記第3の複合語の出現頻度を前記文書における前記部分の出現順に列挙した頻度ベクトルであり、
前記登録済みの用語の前記頻度ベクトルと前記第3の複合語の前記頻度ベクトル間の、コサイン類似度、相関係数、ジャッカード係数、若しくはダイス係数である第3の類似度、又は第4の距離と負の相関を持つ第4の類似度が、第3の閾値より大きい場合に、前記出現分布が類似すると判定する付記1乃至6のいずれか1項に記載の固有用語候補抽出装置。
(付記8)
前記第4の距離は、出前記現分布における最初の出現頻度が非0である部分と最後の出現頻度が非0である部分との間の距離である付記7に記載の用語集作成支援システム。
(付記9)
前記文書から、単語辞書を用いて、前記文書中の単語を表す文字列、前記単語が属する品詞、及び前記単語の出現位置を含む単語情報を抽出する文書解析手段と、
前記単語情報に基づいて、前記文書において直接隣接する、名詞又は前記単語辞書に登録されていない未知語が全て結合された文字列を前記第1の複合語として抽出する複合語抽出手段とを更に備え、
前記表記揺れ判定手段は、前記単語情報に基づいて、前記出現分布を算出する
ことを特徴とする付記1乃至8のいずれか1項に記載の固有用語候補抽出装置。
(付記10)
概ね1人の著者により記述された部分に分割された文書に含まれる第1の複合語のうち、前記文書に固有な用語に関する用語集に未登録の第2の複合語を抽出し、
前記第2の複合語のうち、前記用語集に登録済みの用語と文字列又は意味が類似する第3の複合語であって、且つ前記部分における出現分布が前記登録済みの用語と類似しない第4の複合語を前記登録済みの用語の表記揺れの語であると判定し、
前記第4の複合語を除く前記第2の複合語を前記用語集に登録されるべき用語の候補として抽出する
ことを特徴とする固有用語候補抽出方法。
(付記11)
固有用語候補抽出装置が備えるコンピュータにおいて、
概ね1人の著者により記述された部分に分割された文書に含まれる第1の複合語のうち、前記文書に固有な用語に関する用語集に未登録の第2の複合語を抽出する未登録語抽出処理と、
前記第2の複合語のうち、前記用語集に登録済みの用語と文字列又は意味が類似する第3の複合語であって、且つ前記部分における出現分布が前記登録済みの用語と類似しない第4の複合語を前記登録済みの用語の表記揺れの語であると判定する表記揺れ判定処理と、
前記第4の複合語を除く前記第2の複合語を前記用語集に登録されるべき用語の候補として抽出する用語候補抽出処理と、
をコンピュータに実行させることを特徴とする固有用語候補抽出プログラム。
110 文書入力手段
120 文書解析手段
130 複合語抽出手段
140 未登録語抽出手段
150 表記揺れ判定手段
160 用語候補抽出手段
170 出力手段
180 用語集
105、106 固有用語候補抽出装置
190 PC端末
200 サーバ
300 固有用語候補抽出システム
Claims (10)
- 文書もしくは文書群を構成する各文章に使用されている全単語の単語情報の抽出を行う文書解析部と、文書解析部で抽出された全単語の単語情報を用いて、複合語を推測する複合語推測部と、文書群に固有の用語を登録した用語データベースと、所定の用語候補語判定ルールに基づき、用語データベースに登録されておらずかつ用語と類似した複合語を用語候補語として抽出する用語候補語抽出部と、 前記第2の複合語のうち、前記用語集に登録済みの用語と文字列又は意味が類似する第3の複合語であって、且つ前記部分における出現分布が前記登録済みの用語と類似しない第4の複合語を前記登録済みの用語の表記揺れの語であると判定する表記揺れ判定手段と、 前記第4の複合語を除く前記第2の複合語を前記用語集に登録されるべき用語の候補として抽出する用語候補抽出手段と、
を備えたことを特徴とする固有用語候補抽出装置。 - 前記表記揺れ判定手段は、前記第2の複合語を表す文字列と前記登録済みの用語を表す文字列との間の第1の距離と負の相関を持つ第1の類似度が第1の閾値より大きい場合に、前記第2の複合語と前記登録済みの用語との文字列が類似すると判定する
請求項1に記載の固有用語候補抽出装置。 - 前記第1の距離は、前記第2の複合語を表す文字列と前記登録済みの用語を表す文字列との間の編集距離である請求項2に記載の固有用語候補抽出装置。
- 前記表記揺れ判定手段は、前記第2の複合語に含まれる第1の構成語と前記登録済みの用語に含まれる第2の構成語との間の第2の距離に基づいて、前記第2の複合語と前記登録済みの用語との第3の距離と負の相関を持つ第2の類似度が第2の閾値より大きい場合に、前記第2の複合語と前記登録済みの用語との意味が類似すると判定する
請求項1乃至3のいずれか1項に記載の固有用語候補抽出装置。 - 前記第2の距離は、単語間の階層関係が木構造を有する単語分類辞書における、前記第2の複合語に含まれる単語と前記登録済みの用語に含まれる単語との間を結ぶ枝の数である請求項4に記載の固有用語候補抽出装置。
- 前記出現分布は、前記部分毎に、前記登録済みの用語の出現頻度、または前記第3の複合語の出現頻度を前記文書における前記部分の出現順に列挙した頻度ベクトルであり、
前記登録済みの用語の前記頻度ベクトルと前記第3の複合語の前記頻度ベクトル間の、コサイン類似度、相関係数、ジャッカード係数、若しくはダイス係数である第3の類似度、又は第4の距離と負の相関を持つ第4の類似度が、第3の閾値より大きい場合に、前記出現分布が類似すると判定する請求項1乃至5のいずれか1項に記載の固有用語候補抽出装置。 - 前記第4の距離は、出前記現分布における最初の出現頻度が非0である部分と最後の出現頻度が非0である部分との間の部分の個数である請求項6に記載の用語集作成支援システム。
- 前記文書から、単語辞書を用いて、前記文書中の単語を表す文字列、前記単語が属する品詞、及び前記単語の出現位置を含む単語情報を抽出する文書解析手段と、
前記単語情報に基づいて、前記文書において直接隣接する、名詞又は前記単語辞書に登録されていない未知語が全て結合された文字列を前記第1の複合語として抽出する複合語抽出手段とを更に備え、
前記表記揺れ判定手段は、前記単語情報に基づいて、前記出現分布を算出する
ことを特徴とする請求項1乃至7のいずれか1項に記載の固有用語候補抽出装置。 - 概ね1人の著者により記述された部分に分割された文書に含まれる第1の複合語のうち、前記文書に固有な用語に関する用語集に未登録の第2の複合語を抽出し、
前記第2の複合語のうち、前記用語集に登録済みの用語と文字列又は意味が類似する第3の複合語であって、且つ前記部分における出現分布が前記登録済みの用語と類似しない第4の複合語を前記登録済みの用語の表記揺れの語であると判定し、
前記第4の複合語を除く前記第2の複合語を前記用語集に登録されるべき用語の候補として抽出する
ことを特徴とする固有用語候補抽出方法。 - 固有用語候補抽出装置が備えるコンピュータにおいて、
概ね1人の著者により記述された部分に分割された文書に含まれる第1の複合語のうち、前記文書に固有な用語に関する用語集に未登録の第2の複合語を抽出する未登録語抽出処理と、
前記第2の複合語のうち、前記用語集に登録済みの用語と文字列又は意味が類似する第3の複合語であって、且つ前記部分における出現分布が前記登録済みの用語と類似しない第4の複合語を前記登録済みの用語の表記揺れの語であると判定する表記揺れ判定処理と、
前記第4の複合語を除く前記第2の複合語を前記用語集に登録されるべき用語の候補として抽出する用語候補抽出処理と、
をコンピュータに実行させることを特徴とする固有用語候補抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014159224A JP6476638B2 (ja) | 2014-08-05 | 2014-08-05 | 固有用語候補抽出装置、固有用語候補抽出方法、及び固有用語候補抽出プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014159224A JP6476638B2 (ja) | 2014-08-05 | 2014-08-05 | 固有用語候補抽出装置、固有用語候補抽出方法、及び固有用語候補抽出プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016038596A true JP2016038596A (ja) | 2016-03-22 |
JP6476638B2 JP6476638B2 (ja) | 2019-03-06 |
Family
ID=55529654
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014159224A Active JP6476638B2 (ja) | 2014-08-05 | 2014-08-05 | 固有用語候補抽出装置、固有用語候補抽出方法、及び固有用語候補抽出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6476638B2 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08147324A (ja) * | 1994-11-24 | 1996-06-07 | Nippon Telegr & Teleph Corp <Ntt> | 単語間意味類似性判別方法 |
JP2004318480A (ja) * | 2003-04-16 | 2004-11-11 | Sony Corp | 電子機器装置、新語抽出方法、およびプログラム |
JP2009211639A (ja) * | 2008-03-06 | 2009-09-17 | Fuji Xerox Co Ltd | 文書処理装置 |
WO2013165334A1 (en) * | 2012-04-29 | 2013-11-07 | Hewlett-Packard Development Company, L.P. | Re-digitization and error correction of electronic documents |
-
2014
- 2014-08-05 JP JP2014159224A patent/JP6476638B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08147324A (ja) * | 1994-11-24 | 1996-06-07 | Nippon Telegr & Teleph Corp <Ntt> | 単語間意味類似性判別方法 |
JP2004318480A (ja) * | 2003-04-16 | 2004-11-11 | Sony Corp | 電子機器装置、新語抽出方法、およびプログラム |
JP2009211639A (ja) * | 2008-03-06 | 2009-09-17 | Fuji Xerox Co Ltd | 文書処理装置 |
WO2013165334A1 (en) * | 2012-04-29 | 2013-11-07 | Hewlett-Packard Development Company, L.P. | Re-digitization and error correction of electronic documents |
Also Published As
Publication number | Publication date |
---|---|
JP6476638B2 (ja) | 2019-03-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9152623B2 (en) | Natural language processing system and method | |
RU2679988C1 (ru) | Извлечение информационных объектов с помощью комбинации классификаторов | |
Mahmood et al. | Query based information retrieval and knowledge extraction using Hadith datasets | |
WO2016121048A1 (ja) | 文章生成装置及び方法 | |
JP2019082931A (ja) | 検索装置、類似度算出方法、およびプログラム | |
CN107679035A (zh) | 一种信息意图检测方法、装置、设备和存储介质 | |
Siklósi | Using embedding models for lexical categorization in morphologically rich languages | |
JP6409071B2 (ja) | 文の並び替え方法および計算機 | |
JP2002117027A (ja) | 感情情報抽出方法および感情情報抽出プログラムの記録媒体 | |
Solanki et al. | A system to transform natural language queries into SQL queries | |
WO2019163642A1 (ja) | 要約評価装置、方法、プログラム、及び記憶媒体 | |
EP3432161A1 (en) | Information processing system and information processing method | |
JP4005343B2 (ja) | 情報検索システム | |
Revanth et al. | Nl2sql: Natural language to sql query translator | |
Rahat et al. | Parsa: An open information extraction system for Persian | |
JP7122773B2 (ja) | 辞書構築装置、辞書の生産方法、およびプログラム | |
JPWO2009113289A1 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
US20210073258A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
JP6476638B2 (ja) | 固有用語候補抽出装置、固有用語候補抽出方法、及び固有用語候補抽出プログラム | |
JP7227705B2 (ja) | 自然言語処理装置、検索装置、自然言語処理方法、検索方法およびプログラム | |
JP2001101184A (ja) | 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体 | |
WO2014188555A1 (ja) | テキスト処理装置、及び、テキスト処理方法 | |
Testas | Natural Language Processing with Pandas, Scikit-Learn, and PySpark | |
JP5312531B2 (ja) | 文章対応付けシステムおよび文章対応付けプログラム | |
Truskinger et al. | Reconciling folksonomic tagging with taxa for bioacoustic annotations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170718 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180529 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180531 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180704 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190108 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190121 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6476638 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |