JP5739352B2 - 辞書生成装置、文書ラベル判定システム及びコンピュータプログラム - Google Patents
辞書生成装置、文書ラベル判定システム及びコンピュータプログラム Download PDFInfo
- Publication number
- JP5739352B2 JP5739352B2 JP2012005454A JP2012005454A JP5739352B2 JP 5739352 B2 JP5739352 B2 JP 5739352B2 JP 2012005454 A JP2012005454 A JP 2012005454A JP 2012005454 A JP2012005454 A JP 2012005454A JP 5739352 B2 JP5739352 B2 JP 5739352B2
- Authority
- JP
- Japan
- Prior art keywords
- dictionary
- document
- documents
- incorrect
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004590 computer program Methods 0.000 title claims description 8
- 238000001914 filtration Methods 0.000 claims description 30
- 238000004364 calculation method Methods 0.000 claims description 23
- 238000010606 normalization Methods 0.000 claims description 16
- 239000000284 extract Substances 0.000 claims description 4
- 238000012545 processing Methods 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 11
- 238000000034 method Methods 0.000 description 9
- 230000000877 morphologic effect Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
特許文献1では、単語の組み合わせを形成する際にこの問題を解決しているが、辞書に単語または単語の組み合わせが登録される場合には、特許文献1の手法を適用することができなかった。
これにより、上述の辞書生成装置がコンピュータを利用して実現できるようになる。
図1は、本発明の一実施形態に係る文書ラベル判定システムの構成を示すブロック図である。図1において、トピック判定装置32は、フィルタリング用辞書30を用いて、データ(テキストデータ)100から成る入力文書に対応するラベルを判定する。ラベルは、トピックなど、文書の性質を示す。本実施形態では、ラベルは、文書のトピックを示すものとして定義されているとする。
文書正規化部4は、正解文書及び不正解文書に対して文書の正規化を行う。文書の正規化では、所定の規則に従って、表記の揺れを統一したり又はタグを除去したりする。
入力文書は、ブログ記事(本文(テキストデータ、絵文字を含む、HTML(HyperText Markup Language)タグを含む)、画像は無し)と、ブログコメント(本文(テキストデータ、HTMLタグを含む)、画像は無し)であるとする。文書正規化部4は、所定の正規化規則に従って入力文書の本文を正規化理し、正規化処理後の文書を出力する。以下に正規化規則の例を示す。
(正規化規則の例)
・ハイフン「‐」、マイナス記号「−」及び長音記号「ー」を所定の記号(例えば「−」)に統一する。
・半角文字を全角文字に変換する。
・タブ文字を空白に置き換える。
・絵文字を特定の文字記号(0xA2A2)に置き換える。
・HTMLタグを削除する。
・日本語の小文字を大文字に変換する。例えば「ィ」を「イ」に変換する。但し、不図示の形態素解析用辞書において、小文字有りの状態で登録されている場合には変換しないで小文字のまま残す。
形態素解析部6は、文書正規化部4から出力された正規化後の正解文書及び不正解文書に対して文書の形態素処理を行う。文書の形態素処理では、不図示の形態素解析用辞書を用いて、文章を単語単位に分割し、各単語に品詞を割り当てる。そして、所定の品詞が割り当てられた単語を抽出する。
入力文書は、正規化後のブログ記事(本文(正規化済みのテキストデータ))と、正規化後のブログコメント(本文(正規化済みのテキストデータ))であるとする。形態素解析部6は、不図示の形態素解析用辞書を用いて、正規化後のブログ記事及びブログコメントに対し、文章を単語単位に分割して各単語に品詞を割り当てる。次いで、形態素解析部6は、所定の品詞(例えば、名詞)が割り当てられた単語を抽出する。次いで、形態素解析部6は、抽出した単語に対して、英単語の正規化(例えば、小文字を大文字に変換する)を行ったり、カタカナの単語の正規化(例えば、「コンピューター」を「コンピュータ」に変換する)を行ったりする。形態素解析部6は、正規化後の単語を頻度計算対象単語表に格納する。但し、同じ単語が頻度計算対象単語表に重複して格納されないようにする。
スコア計算部12は、形態素解析部6から出力された頻度計算対象単語表に格納される各単語を対象にして、SSSに関する図3に示される2×2分割表を作成する。図3において、単語wに関するa、b、c、dは以下の値である。
a:正解文書の集合DOCMのうち、単語wを含んでいる文書の数
b:正解文書の集合DOCMのうち、単語wを含んでいない文書の数
c:不正解文書の集合DOCNのうち、単語wを含んでいる文書の数
d:不正解文書の集合DOCNのうち、単語wを含んでいない文書の数
N11:正解文書の集合DOCMのうち、単語w1を含む且つ単語w2を含む文書の数
N12:正解文書の集合DOCMのうち、単語w1を含む且つ単語w2を含まない文書の数
N13:正解文書の集合DOCMのうち、単語w1を含まない且つ単語w2を含む文書の数
N14:正解文書の集合DOCMのうち、単語w1を含まない且つ単語w2を含まない文書の数
N21:不正解文書の集合DOCNのうち、単語w1を含む且つ単語w2を含む文書の数
N22:不正解文書の集合DOCNのうち、単語w1を含む且つ単語w2を含まない文書の数
N23:不正解文書の集合DOCNのうち、単語w1を含まない且つ単語w2を含む文書の数
N24:不正解文書の集合DOCNのうち、単語w1を含まない且つ単語w2を含まない文書の数
N12=a(w1)−N11
N13=a(w2)−N11
N22=c(w1)−N11
N23=c(w2)−N11
Z=N11+N12+N13+N14+N21+N22+N23+N24
スコア計算部12は、上記で算出した第1から第8の文書数(N11、N12、N13、N14、N21、N22、N23、N24)を用いて、第1から第4の情報量基準量(AIC(M1)、AIC(M2)、AIC(M3)、AIC(M0))を算出する。
[ステップS5:辞書登録候補の選択]
辞書登録候補選択部16は、スコア計算部12が算出した第1から第4の情報量基準量(AIC(M1)、AIC(M2)、AIC(M3)、AIC(M0))を用いて、辞書登録候補を選択する。辞書登録候補は、単語w1、単語w2、及び単語w1と単語w2の組み合わせである。以下、本実施形態に係る辞書登録候補選択処理を説明する。
(N11+N12)÷(N11+N12+N21+N22)>(N13+N14)÷(N13+N14+N23+N24)
(N11+N13)÷(N11+N13+N21+N23)>(N12+N14)÷(N12+N14+N22+N24)
N11÷(N11+N21)>(N12+N13+N14)÷(N12+N13+N14+N22+N23+N24)
単語w1のスコアE(M1)=AIC(M0)−AIC(M1)
単語w2のスコアE(M2)=AIC(M0)−AIC(M2)
単語w1と単語w2の組み合わせのスコアE(M3)=AIC(M0)−AIC(M3)
入力文書フィルタ部17は、辞書登録候補選択部16が選択した辞書登録候補を含む正解文書及び不正解文書を正解文書の集合DOCM及び不正解文書の集合DOCNから削除し、正解文書の集合DOCM及び不正解文書の集合DOCNを更新する。すなわち、入力文書フィルタ部17は、辞書登録候補選択部が選択した辞書登録候補を含む正解文書及び不正解文書を、正解文書の集合及び不正解文書の集合から削除し、新たな正解文書の集合及び不正解文書の集合を構築する。そして、スコア計算部12は、入力文書フィルタ部17が構築した新たな正解文書の集合及び不正解文書の集合に含まれる一つ以上の単語をそれぞれ辞書登録候補とし、連続する単語の情報量基準量を算出する。
これにより、以降の処理において、既に選択された辞書登録候補を含まない正解文書及び不正解文書から新たな辞書登録候補を選択することを保証することができる。従って、同じ辞書登録候補を重複して選択することを防ぐことができる。
辞書登録候補選択部16は、頻度計算対象単語表に格納される全ての単語に対して、辞書登録候補にするか否かを判定したかを判断する。この結果、頻度計算対象単語表に格納される全ての単語に対して辞書登録候補にするか否かを判定した場合には(ステップS7、YES)、ステップS8に進む。一方、未だ判定していない単語が残っている場合には(ステップS7、NO)、ステップS3に戻る。
辞書登録部18は、辞書登録候補選択部16が選択して記録した辞書登録候補及びスコアをフィルタリング用辞書30に登録する。この登録の対象となる辞書登録候補及びスコアは、単語w1とそのスコアE(M1)の組(スコア付き単語)、単語w2とそのスコアE(M2)の組(スコア付き単語)、及び単語w1と単語w2の組み合わせとそのスコアE(M3)の組(スコア付き単語の組み合わせ)である。
なお、入力文書フィルタ部17は、スコア計算部12および辞書登録候補選択部16が特定の文書集合に偏った単語選択が行われることを避けることを目的とした、正解文書および不正解文書の集合の中から、フィルタリング用辞書30に既に登録されている単語で、トピック判定装置32が正解文書として判定可能な文書を取り除いてもよい。
例えば、上述の実施形態では、単語w1と単語w2の組み合わせを辞書登録候補としたが、辞書登録候補として3つ以上の単語の組み合わせに対しても同様に適用可能である。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、DVD(Digital Versatile Disk)等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
Claims (8)
- 特定の性質に関係する正解文書の集合と前記性質に関係しない不正解文書の集合とを用いて、前記性質に関係する文書であるか否かを判定するためのフィルタリング辞書を生成する辞書生成装置において、
前記正解文書又は前記不正解文書に含まれる一つ以上の単語をそれぞれ辞書登録候補とし、連続する前記単語の情報量基準量を算出するスコア計算部と、
前記情報量基準量に基づき、フィルタリング辞書に登録する単語または連続する単語の組み合わせである辞書登録候補を選択する辞書登録候補選択部と、
前記辞書登録候補選択部により選択された辞書登録候補を該当する前記情報量基準量に基づいたスコアとともに前記辞書に登録する辞書登録部と、
前記辞書登録候補選択部が選択した辞書登録候補を含む前記正解文書及び前記不正解文書を、前記正解文書の集合及び前記不正解文書の集合から削除し、新たな正解文書の集合及び不正解文書の集合を構築する入力文書フィルタ部と、
を備え、
前記スコア計算部は、前記入力文書フィルタ部が構築した新たな正解文書の集合及び不正解文書の集合に含まれる一つ以上の単語をそれぞれ辞書登録候補とし、連続する前記単語の情報量基準量を算出することを特徴とする辞書生成装置。 - 前記入力文書フィルタ部は、前記正解文書および前記不正解文書の集合の中から、前記フィルタリング辞書に既に登録されている単語で、トピック判定装置が正解文書として判定可能な文書を取り除くことを特徴とする請求項1に記載の辞書生成装置。
- 前記辞書登録候補選択部は、
連続する単語の組み合わせが前記不正解文書中よりも前記正解文書中により多く含まれる場合にのみ連続する単語の組み合わせをフィルタリング辞書に登録する単語として選択することを特徴とする請求項1または2に記載の辞書生成装置。 - 前記辞書登録部は、同じ辞書登録候補が複数選択されている場合に、該複数の辞書登録候補に係るスコアのうち最小のスコアを当該辞書登録候補のスコアとすることを特徴とする請求項1から3のいずれか1項に記載の辞書生成装置。
- 前記スコア計算部は、前記正解文書および不正解文書に含まれる連続する二つ以上の単語を抽出し、それらの単語が単独で出現する場合、および、二つ以上連続して出現する場合それぞれについて、前記正解文書および不正解文書内に含まれる回数を算出し、算出した前記回数に基づき前記連続する二つ以上の単語の組み合わせに対する情報量基準量を算出することを特徴とする請求項1から4のいずれか1項に記載の辞書生成装置。
- 請求項1から3のいずれか1項に記載の辞書生成装置と、
入力文書に対してテキストデータ以外のデータの削除を行う文書正規化部を備えたことを特徴とする多様な入力文書に対応可能な辞書生成装置。 - 請求項1から3のいずれか1項に記載の辞書生成装置と、
前記辞書生成装置によって生成された、特定の性質を表すラベルに対応付けてスコア付き単語及びスコア付き単語の組み合わせを格納するフィルタリング辞書と、
前記フィルタリング辞書を用いて入力文書に対応するラベルを判定するトピック判定装置と、
を備えたことを特徴とする文書ラベル判定システム。 - 特定の性質に関係する正解文書の集合と前記性質に関係しない不正解文書の集合とを用いて、前記性質に関係する文書であるか否かを判定するための辞書を生成する処理を行うためのコンピュータプログラムであって、
前記正解文書又は前記不正解文書に含まれる一つ以上の単語をそれぞれ辞書登録候補とし、連続する前記単語の情報量基準量を算出するステップと、
前記情報量基準量に基づき、フィルタリング辞書に登録する単語または連続する単語の組み合わせである辞書登録候補を選択する辞書登録候補選択ステップと、
前記辞書登録候補選択ステップにより選択された辞書登録候補を該当する前記情報量基準量に基づいたスコアとともに前記辞書に登録するステップと、
前記辞書登録候補選択ステップが選択した辞書登録候補を含む前記正解文書及び前記不正解文書を、前記正解文書の集合及び前記不正解文書の集合から削除し、新たな正解文書の集合及び不正解文書の集合を構築するステップと、
前記構築した新たな正解文書の集合及び不正解文書の集合に含まれる一つ以上の単語をそれぞれ辞書登録候補とし、連続する前記単語の情報量基準量を算出するステップと、をコンピュータに実行させるためのコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012005454A JP5739352B2 (ja) | 2012-01-13 | 2012-01-13 | 辞書生成装置、文書ラベル判定システム及びコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012005454A JP5739352B2 (ja) | 2012-01-13 | 2012-01-13 | 辞書生成装置、文書ラベル判定システム及びコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013145461A JP2013145461A (ja) | 2013-07-25 |
JP5739352B2 true JP5739352B2 (ja) | 2015-06-24 |
Family
ID=49041230
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012005454A Expired - Fee Related JP5739352B2 (ja) | 2012-01-13 | 2012-01-13 | 辞書生成装置、文書ラベル判定システム及びコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5739352B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7243402B2 (ja) * | 2019-04-11 | 2023-03-22 | 富士通株式会社 | 文書処理方法、文書処理プログラムおよび情報処理装置 |
JP7409942B2 (ja) * | 2020-03-31 | 2024-01-09 | 株式会社オービック | 文書分類支援装置、文書分類支援方法、及び文書分類支援プログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5364529B2 (ja) * | 2009-10-07 | 2013-12-11 | 株式会社Kddi研究所 | 辞書登録装置、文書ラベル判定システムおよび辞書登録プログラム |
-
2012
- 2012-01-13 JP JP2012005454A patent/JP5739352B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013145461A (ja) | 2013-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Amjad et al. | “Bend the truth”: Benchmark dataset for fake news detection in Urdu language and its evaluation | |
US10229154B2 (en) | Subject-matter analysis of tabular data | |
US8364470B2 (en) | Text analysis method for finding acronyms | |
US10282603B2 (en) | Analyzing technical documents against known art | |
Tanaka-Ishii et al. | Computational constancy measures of texts—Yule's K and Rényi's entropy | |
US20120143895A1 (en) | Query pattern generation for answers coverage expansion | |
JPWO2007119567A1 (ja) | 文書処理装置および文書処理方法 | |
Al Qundus et al. | Exploring the impact of short-text complexity and structure on its quality in social media | |
Singh et al. | SentiVerb system: classification of social media text using sentiment analysis | |
Eika et al. | Assessing the reading level of web texts for WCAG2. 0 compliance—can it be done automatically? | |
Wong et al. | iSentenizer‐μ: Multilingual Sentence Boundary Detection Model | |
US9495352B1 (en) | Natural language determiner to identify functions of a device equal to a user manual | |
Golpar-Rabooki et al. | Feature extraction in opinion mining through Persian reviews | |
Dahlberg et al. | A distributional semantic online lexicon for linguistic explorations of societies | |
Chen et al. | An automatic method for extracting innovative ideas based on the scopus® database | |
Mekki et al. | Tokenization of Tunisian Arabic: A comparison between three machine learning models | |
JP5739352B2 (ja) | 辞書生成装置、文書ラベル判定システム及びコンピュータプログラム | |
JP5364529B2 (ja) | 辞書登録装置、文書ラベル判定システムおよび辞書登録プログラム | |
Zoya et al. | Assessing urdu language processing tools via statistical and outlier detection methods on urdu tweets | |
Tessore et al. | Distant Supervised Construction and Evaluation of a Novel Dataset of Emotion-Tagged Social Media Comments in Spanish | |
Przybyła et al. | Analysing utterances in polish parliament to predict speaker’s background | |
Lara-Clares et al. | A reproducible experimental survey on biomedical sentence similarity: A string-based method sets the state of the art | |
Balaji et al. | Finding related research papers using semantic and co-citation proximity analysis | |
JP5178357B2 (ja) | 単語スコア算出装置、文書ラベル判定システム、および単語スコア算出プログラム | |
JP5187187B2 (ja) | 体験情報検索システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140723 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20140724 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150127 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150128 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150316 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20150317 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150407 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150423 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5739352 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |