JP4478042B2 - 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置 - Google Patents
頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置 Download PDFInfo
- Publication number
- JP4478042B2 JP4478042B2 JP2005056598A JP2005056598A JP4478042B2 JP 4478042 B2 JP4478042 B2 JP 4478042B2 JP 2005056598 A JP2005056598 A JP 2005056598A JP 2005056598 A JP2005056598 A JP 2005056598A JP 4478042 B2 JP4478042 B2 JP 4478042B2
- Authority
- JP
- Japan
- Prior art keywords
- morpheme
- word
- frequency information
- text
- path
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
金明哲、村上征勝、永田昌明、大津起夫、山西健司、共著、「統計科学のフロンティア(第10巻)言語と心理の統計――ことばと行動の確率モデルによる分析」、岩波書店、2003年、p.62−73 徳永健伸著、「言語と計算(第5巻)情報検索と言語処理」、東京大学出版会、1999年、p.26−28
図1は、本発明の第1の実施形態に係る頻度情報付き単語集合生成装置の構成の例を示した図である。図1において、頻度情報付き単語集合生成装置1は、図示しない情報処理部と記憶部とを少なくとも備えたコンピュータによって構成され、その情報処理部は、形態素ラティス生成部10と、形態素/単語重要度計算部20と、頻度情報付き単語集合算出部30とを含んで構成される。
m=<w,t>:形態素
ただし、wは、表層文字列(「東京」、「私」、「動く」など)、tは、対応する品詞(名詞、代名詞、動詞、など)である。ここでは、表層文字列を「単語」と定義する。
m∈D:形態素集合(一般には、辞書と呼ばれることが多い。)
b:初期状態形態素
e:終了状態形態素
π:m∈(D∪{b,e})→R:形態素生起コスト(形態素から実数値への写像)
ここでは、便宜的にπ(m)という実数値を返す関数として表記する。なお、Rは、実数値空間を示す。
a:m∈(D∪{b,e})×m∈(D∪{b,e})→R:形態素連接コスト(形態素のペアから実数値への写像)
ここでは、便宜的にa(m1,m2)という実数値を返す関数として表記する。
pS=(b,mps,1,mps,2,・・・,mps,|ps|,e) (式1)
ここで、mps,kは、経路pSのk番目の形態素であり、|pS|は、経路pS上にある形態素の個数(ただし、初期状態形態素bおよび終了状態形態素eは含まない)である。
P(<都,接尾>,3,4|S=東京都に住む)=0.23102+0.06958+0.28217+0.08498
=0.66774
P(<京都,名詞>,2,4|S=東京都に住む)=0.25532+0.07690=0.33222
P(<に,助詞>,4,5|S=東京都に住む)=0.25532+0.23102+0.28217=0.76851
本発明の第2の実施形態は、第1の実施形態における形態素周辺確率P(m,i,j)の計算方法を一部変更したものである。
P(<都,接尾>,3,4|S=東京都に住む)=1.3473・0.71411・exp(0.1)/1.5924=0.66774
P(<京都,名詞>,2,4|S=東京都に住む)=0.67032・0.71411・exp(0.1)/1.5924=0.33222
P(<に,助詞>,4,5|S=東京都に住む)=1.6519・0.67032・exp(0.1)/1.5924=0.76851
これらの形態素周辺確率の値は、第1の実施形態で(式4)に基づき計算した値と同じになっている。
P(に,4,5|S=東京都に住む)
=1.6519・0.67032・exp(0.1)/1.5924+0.74224・0.30019・exp(0.1)・1.5924
=1.00
図12は、本発明の第3の実施形態に係るテキスト索引語作成装置の構成の例を示した図である。一般に、テキスト索引語作成装置は、複数のテキスト(テキスト文書)について索引語を抽出して、索引付けを行う装置である。
図13は、本発明の第4の実施形態に係る全文検索装置の構成の例を示した図である。図13において、全文検索装置3は、図示しない情報処理部と記憶部とを少なくとも備えたコンピュータによって構成され、その情報処理部は、索引語作成処理部310と、検索処理部320とを含んで構成される。
図14は、本発明の第5の実施形態に係るテキスト分類装置の構成の例を示した図である。図14において、テキスト分類装置4は、図示しない情報処理部と記憶部とを少なくとも備えたコンピュータによって構成され、その情報処理部は、分類規則作成処理部410と、分類処理部420とを含んで構成される。
2 テキスト索引語作成装置
3 全文検索装置
5 単語集合生成装置
10 形態素ラティス生成部
20 形態素/単語重要度計算部
30 頻度情報付き単語集合算出部
40 テキスト記憶部
50 頻度情報付き単語集合記憶部
60 形態素ラティス
201 頻度情報付き単語集合生成部
202 自動索引生成部
203 テキスト集合記憶部
204 頻度情報付き単語集合記憶部
205 索引データ記憶部
301,301a 索引語作成部
302 照合部
310 索引語作成処理部
320 検索処理部
401 分類規則作成部
402 照合部
403 分類規則記憶部
410 分類規則作成処理部
420 分類処理部
510 形態素ラティス生成部
520 最適解選択部
530 頻度情報付き単語集合算出部
540 テキスト記憶部
550 頻度情報付き単語集合記憶部
560 形態素ラティス
570 最適解
Claims (7)
- 情報処理部と記憶部とを少なくとも備えたコンピュータにおいて、入力されたテキストに対し、その入力されたテキストに含まれ得る単語について、その単語とその単語の頻度情報とのペアを元とした集合を生成する頻度情報付き単語集合生成方法であって、
前記情報処理部が、
前記入力されたテキストの文頭から文末までを所定の辞書によって同定可能な形態素に分解し、前記同定された形態素の接続関係をグラフとして表わした形態素ラティスを生成するステップと、
前記形態素ラティスに含まれる形態素それぞれについて、その形態素が出現する確率である形態素出現確率を計算するステップと、
前記形態素出現確率に対応して、それぞれの形態素の重要度を計算するステップと、
前記計算した形態素の重要度に基づき、前記形態素ラティスに含まれる単語それぞれについてその頻度情報を算出し、単語とその頻度情報とのペアを元とした頻度情報付き単語集合を生成するステップとを
を実行し、
前記形態素出現確率を計算するステップは、
前記形態素ラティスにおける文頭から文末に至る各経路について、その経路に含まれる形態素の形態素生起コストと形態素連接コストとの総和である経路コストを計算するステップと、
前記入力されたテキスト中に前記各経路が出現する経路出現確率がボルツマン分布に従うものとして、前記計算された経路コストに応じた各経路の経路出現確率を計算するステップと、
前記形態素ラティスに含まれる形態素それぞれについて、前記入力されたテキストの所定の文字位置範囲内に当該形態素が含まれる経路の前記経路出現確率を足し合わせたものを形態素周辺確率として計算し、前記計算した形態素周辺確率を前記形態素出現確率として出力するステップと
を含んで構成されること
を特徴とする頻度情報付き単語集合生成方法。 - 請求項1に記載の頻度情報付き単語集合生成方法をコンピュータに実行させるためのプログラム。
- 請求項2に記載のプログラムをコンピュータ読み取り可能な記憶媒体に記憶したことを特徴とするプログラム記憶媒体。
- 情報処理部と記憶部とを少なくとも備えたコンピュータからなり、入力されたテキストに対し、その入力されたテキストに含まれ得る単語について、その単語とその単語の頻度情報とのペアを元とした集合を生成する頻度情報付き単語集合生成装置であって、
前記入力されたテキストの文頭から文末までを所定の辞書によって同定可能な形態素に分解し、前記同定された形態素の接続関係をグラフとして表わした形態素ラティスを生成する手段と、
前記形態素ラティスに含まれる形態素それぞれについて、その形態素が出現する確率である形態素出現確率を計算する手段と、
前記形態素出現確率に対応して、それぞれの形態素の重要度を計算する手段と、
前記計算した形態素の重要度に基づき、前記形態素ラティスに含まれる単語それぞれについてその頻度情報を算出し、単語とその頻度情報とのペアを元とした頻度情報付き単語集合を生成する手段とを
備え、
前記形態素出現確率を計算する手段は、
前記形態素ラティスにおける文頭から文末に至る各経路について、その経路に含まれる形態素の形態素生起コストと形態素連接コストとの総和である経路コストを計算する手段と、
前記入力されたテキスト中に前記各経路が出現する経路出現確率がボルツマン分布に従うものとして、前記計算された経路コストに応じた各経路の経路出現確率を計算する手段と、
前記形態素ラティスに含まれる形態素それぞれについて、前記入力されたテキストの所定の文字位置範囲内に当該形態素が含まれる経路の前記経路出現確率を足し合わせたものを形態素周辺確率として計算し、前記計算した形態素周辺確率を前記形態素出現確率として出力する手段と
を含んで構成されること
を特徴とする頻度情報付き単語集合生成装置。 - 請求項4に記載の頻度情報付き単語集合生成装置を含んで構成されること
を特徴とするテキスト索引語作成装置。 - 請求項5に記載のテキスト索引語作成装置を含んで構成されること
を特徴とする全文検索装置。 - 請求項5に記載のテキスト索引語作成装置を含んで構成されること
を特徴とするテキスト分類装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005056598A JP4478042B2 (ja) | 2005-03-01 | 2005-03-01 | 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005056598A JP4478042B2 (ja) | 2005-03-01 | 2005-03-01 | 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006243976A JP2006243976A (ja) | 2006-09-14 |
JP4478042B2 true JP4478042B2 (ja) | 2010-06-09 |
Family
ID=37050350
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005056598A Expired - Fee Related JP4478042B2 (ja) | 2005-03-01 | 2005-03-01 | 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4478042B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5132270B2 (ja) * | 2007-11-14 | 2013-01-30 | 楽天株式会社 | 情報処理装置および方法、並びにプログラム |
JP6220761B2 (ja) * | 2014-10-20 | 2017-10-25 | 日本電信電話株式会社 | モデル学習装置、文字列変換装置、方法、及びプログラム |
JP2017049930A (ja) * | 2015-09-04 | 2017-03-09 | 株式会社東芝 | 文書解析装置、方法及びプログラム |
-
2005
- 2005-03-01 JP JP2005056598A patent/JP4478042B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2006243976A (ja) | 2006-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Şeker et al. | Initial explorations on using CRFs for Turkish named entity recognition | |
JP3768205B2 (ja) | 形態素解析装置、形態素解析方法及び形態素解析プログラム | |
JP5403696B2 (ja) | 言語モデル生成装置、その方法及びそのプログラム | |
WO2003065245A1 (fr) | Procede de traduction, procede de production de phrase traduite, support d'enregistrement, programme et ordinateur | |
JP2007087397A (ja) | 形態素解析プログラム、補正プログラム、形態素解析装置、補正装置、形態素解析方法および補正方法 | |
JP5524138B2 (ja) | 同義語辞書生成装置、その方法、及びプログラム | |
JP2014120053A (ja) | 質問応答装置、方法、及びプログラム | |
JP6077727B1 (ja) | 多言語の固有表現認識モデルの転移を行うコンピュータシステム、方法、およびプログラム | |
EP1503295A1 (en) | Text generation method and text generation device | |
US20210342534A1 (en) | Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program | |
JP2004342104A (ja) | テキストを圧縮するシステム、方法及びコンピュータ可読記憶媒体 | |
JP4478042B2 (ja) | 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置 | |
JP5623380B2 (ja) | 誤り文修正装置、誤り文修正方法およびプログラム | |
JPWO2009113289A1 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
JP5523929B2 (ja) | テキスト要約装置、テキスト要約方法及びテキスト要約プログラム | |
Khoufi et al. | Chunking Arabic texts using conditional random fields | |
JP5506482B2 (ja) | 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム | |
JP5398638B2 (ja) | 記号入力支援装置、記号入力支援方法、及びプログラム | |
JP2017129994A (ja) | 文書き換え装置、方法、及びプログラム | |
JP5302784B2 (ja) | 機械翻訳方法、及びシステム | |
JP2002334076A (ja) | テキスト処理方法 | |
KR20040018008A (ko) | 품사 태깅 장치 및 태깅 방법 | |
JP5744150B2 (ja) | 発話生成装置、方法、及びプログラム | |
CN110008307B (zh) | 一种基于规则和统计学习的变形实体识别方法和装置 | |
KR20100072841A (ko) | 대용어 복원 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070213 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091028 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091110 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100107 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100309 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100312 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130319 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |