JP2005115628A - 定型表現を用いた文書分類装置・方法・プログラム - Google Patents
定型表現を用いた文書分類装置・方法・プログラム Download PDFInfo
- Publication number
- JP2005115628A JP2005115628A JP2003348600A JP2003348600A JP2005115628A JP 2005115628 A JP2005115628 A JP 2005115628A JP 2003348600 A JP2003348600 A JP 2003348600A JP 2003348600 A JP2003348600 A JP 2003348600A JP 2005115628 A JP2005115628 A JP 2005115628A
- Authority
- JP
- Japan
- Prior art keywords
- document
- style
- input
- fixed expression
- specific fixed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
大量の電子化された文書から必要な情報を抽出する必要があるが、これらの文書は、様々な文書スタイルで構成されており、それらの文書スタイルの文書を統一的に扱える文書処理技術はなく、文書スタイルごとに適した文書処理技術を選択する必要がある。そのために入力文書を文書スタイルごとに適切に分類することが望まれている。
【解決手段】
本発明では、形態素解析に依存せずに字面解析に基づいて、文書を話題別ではなく文書スタイルにもとづいて分類する。このために、スタイル固有定型表現を文書スタイルごとに参照辞書として用意し、入力文書に対してその文書の中に存在するスタイル固有定型表現の出現状況に基づいて定型表現リストを抽出し、定型表現リストをもとに文書スタイル毎に確信度を算出し、入力文書が属する文書スタイルを決定する。
【選択図】図1
Description
文書分類手法としては、文書に出現する単語の統計情報に基づいて文書を分類する方法があり、例えば、特開平6−75995などは、カテゴリーに属する文書における個々のキーワードの出現頻度などをカテゴリーの関連度として、入力文書に出現する単語の関連度をカテゴリーごとに加算して各カテゴリーへの関連度を計算して、最大の関連度をもつカテゴリーに分類する方法である。また特開平9−16570では文書情報やキーワードの有無をもとに分類を決定する決定木をあらかじめ構成しておき、それを利用して分類を決定している。また特開平11−45247では入力文書とカテゴリー内の典型文書間の類似度を計算して分類を行っている。
しかし文書には新聞記事、論文、メールなどのように様々な文書スタイルがあり、新語、略語、書き間違いや文法的な誤りの度合いなどによって辞書などを用いて自然言語処理を行っても様々な文書スタイルの文書を適格に単語単位に分解する事は困難である。また、これらの方法は主に名詞などの内容を表す単語をキーワードとして用いることが多いため、文書を話題ごとに分類することには適しているが、文書を新聞やコメントなどのように内容ではなく文書スタイル別に分類することには適していない。
図1は本発明の文書分類手段を概略的に表したブロック図であって、スタイル固有定型表現辞書105、文書スタイル決定木集合106、定型表現情報抽出部102と、文書分類部103が示されている。図1において、スタイル固有定型表現辞書105は、スタイル固有定型表現を抽出するためのスタイル固有定型表現を格納する。文書スタイル決定木集合106は文書スタイルの分類ルールを格納する。、定型表現情報抽出部102は、入力文書からその文書に含まれるスタイル固有定型表現を抽出して、定型表現リストの形に変換する。文書分類部103は、定型表現リストから文書スタイル決定木集合に格納されている決定木を用いて入力文書の文書スタイルを決定する。
図2は定型表現情報抽出部102を説明するブロック図であって、入力文書中に存在するスタイル固有定型表現を抽出する字面解析処理部202と入力文書を定型表現リストに変換する定型表現リスト生成部203から構成される。字面解析部では、入力文書の各文に対してスタイル固有定型表現辞書を参照しながら字面上の照合処理を行うことによって文中に存在するスタイル固有定型表現を抽出する。そして定型表現リスト生成部において、字面解析部で抽出されたスタイル固有定型表現から入力文書の各文を文書スタイルごとに定型表現リストに変換する。
字面解析処理部で参照するスタイル固有定型表現辞書には文書スタイルごとにスタイル固有定型表現が格納されている。、以下表1に文書スタイル1に対するスタイル固有定型表現辞書に格納されているスタイル固有定型表現の例を示す。
抽出方法としては、まず文書集合から任意長の文字列のうち多頻度の文字列を候補文字列として抽出する。任意長の文字列の頻度統計を効率よく計算する方法は“自然言語処理”(長尾 真 他編集、岩波書店)に詳しく述べてある。そして各候補文字列に対してその前に隣接する文字集合Wf={wf1,wf2,…,wfn}から候補文字列の前側のエントロピーEfと後に隣接する文字集合Wr={wr1,wr2,…,wrm}から候補文字列の後側のエントロピーErを計算する。
そして前後のエントロピーがともに適当な閾値より大きい候補文字列のみをスタイル固有定型表現として抽出する。
表3に文書スタイル1に属する文書集合から得られる候補文字列とそのエントロピーの例を、表4に文書スタイル2に属する文書集合から得られる候補文字列とそのエントロピーの例を示す。
文書スタイル確信度計算部で参照される文書スタイル決定木集合には文書スタイルごとに文書スタイル決定木が格納されてあり、文書スタイル決定木は文書スタイルごとに抽出されたスタイル固有定型表現を特徴として持ち、文書スタイルの分類とその時の確信度を求める決定木である。文書スタイル決定木によって分類される文書スタイルのクラスは2つで、例えば文書スタイル1に対する文書スタイル決定木の場合、文書スタイル1とその他である。また、文書スタイル決定木は文書スタイルごとにクラス分けされた文書集合から学習される。
などに述べてある。同様な手法を用いて例えば文書スタイル1に対する文書スタイル決定木は文書スタイル1のスタイル固有定型表現を特徴とする特徴ベクトルとその属するクラス(文書スタイル1/その他)で表現されるデータ集合を与えることによって、文書スタイル1に対する文書スタイル決定木が構成される。
400:文書Dの入力
401:M×N個の定型表現リストVijの抽出
402:初期設定
403:iのM回繰り返し
404:jのN回繰り返し
405:定型表現リストVijから文書スタイル決定木を用いた確信度ベクトルCijの計算
406:文書スタイルiに対するj番目の文のスタイル尤度Lijの計算
407:変数jの変更
408:文書スタイルiに対する入力文書の文書スタイル尤度SLiの計算
409:変数iの変更
410:最大の文書スタイル尤度を持つ文書スタイルを入力文書の文書スタイルとして決定
411:終了
102:定型表現情報抽出部
103:文書分類部
104、305:分類された文書スタイル
105:スタイル固有定型表現辞書
106:文書スタイル決定木集合
202:字面解析処理部
203:定型表現リスト生成部
204、301:定型表現リスト
302:文書スタイル確信度計算部
303:文書スタイル尤度計算部
304:文書スタイル決定部
500:筐体
510:記憶部
520:中央制御部(CPU)
530:表示部
540:操作部
Claims (11)
- 以下の(a)から(d)の手段を有する、入力文書を文書スタイルに従って分類する文書分類装置、
(a)文書スタイルを特徴付けるスタイル固有定型表現を生成する手段、
(b)前記スタイル固有定型表現と照合し、前記入力文書から定型表現リストを抽出する手段、
(c)前記定型表現リストをもとに、前記入力文書の前記文書スタイルに対する確信度を算出する手段、
(d)前記確信度をもとに、前記入力文書が属する文書スタイルを決定する手段。 - 以下の(a)から(e)の手段を有する、入力文書を文書スタイルに従って分類する文書分類装置、
(a)文書スタイルを特徴付けるスタイル固有定型表現を生成する手段、
(b)属する文書スタイルが既知である文書集合を用いて、前記スタイル固有定型表現を特徴とする文書スタイル決定木を求める手段、
(c)前記スタイル固有定型表現と照合し、前記入力文書から定型表現リストを抽出する手段、
(d)前記文書スタイル決定木を用いて、前記定型表現リストをもとに、前記入力文書の前記文書スタイルに対する確信度を算出する手段、
(e)前記確信度をもとに、前記入力文書が属する文書スタイルを決定する手段。 - 文書スタイルを特徴付けるスタイル固有定型表現を生成する装置であって、属する文書スタイルが既知である文書集合を用いて、文書中に存在する任意の文字列を対象とし、前記文字列の前後に現れる文字集合の生起確率のエントロピーに基づいて生成するスタイル固有定型表現生成装置。
- 前記文書スタイルを特徴付けるスタイル固有定型表現を生成する手段が、属する文書スタイルが既知である文書集合を用いて、文書中に存在する任意の文字列を対象とし、前記文字列の前後に現れる文字集合の生起確率のエントロピーに基づいて生成する手段を含む請求項1に記載の文書分類装置。
- 前記文書スタイルを特徴付けるスタイル固有定型表現を生成する手段が、属する文書スタイルが既知である文書集合を用いて、文書中に存在する任意の文字列を対象とし、前記文字列の前後に現れる文字集合の生起確率のエントロピーに基づいて生成する手段を含むことを特徴とする請求項2に記載の文書分類装置。
- 前記スタイル固有定型表現を複数のグループに分け、グループ毎のスタイル固有定型表現を特徴として前記文書スタイル決定木を求める請求項2および5に記載の文書分類装置
- 以下の(a)から(f)の手段を有する、複数の文からなる入力文書を文書スタイルに従って分類する文書分類装置、
(a)文書スタイルに対応するスタイル固有定型表現を生成する手段、
(b)前記スタイル固有定型表現を複数のグループに分ける手段、
(c)属する文書スタイルが既知である文書を用いて、前記複数のグループに分けられたスタイル固有定型表現から、複数の文書スタイル決定木を生成する手段、
(d)前記スタイル固有定型表現を用いて、複数の入力文書に対応するそれぞれの定型表現リストを抽出する手段、
(e)前記複数の文書スタイル決定木を用いて、前記それぞれの定型表現リストをもとに、前記複数の入力文書に対応する文書スタイル決定木毎の確信度を算出する手段、
(f)前記確信度をもとに、前記入力文書が属する文書スタイルを決定する手段。 - 以下の(a)から(d)のステップを有する、入力文書を文書スタイルに従って分類することを特徴とする文書分類方法、
(a)文書スタイルを特徴付けるスタイル固有定型表現を生成するステップ、
(b)前記スタイル固有定型表現と照合し、前記入力文書から定型表現リストを抽出するステップ、
(c)前記定型表現リストをもとに、前記入力文書の前記文書スタイルに対する確信度を算出するステップ、
(d)前記確信度をもとに、前記入力文書が属する文書スタイルを決定するステップ。 - 以下の(a)から(e)のステップを有する、入力文書を文書スタイルに従って分類することを特徴とする文書分類方法、
(a)文書スタイルを特徴付けるスタイル固有定型表現を生成するステップ、
(b)属する文書スタイルが既知である文書集合を用いて、前記スタイル固有定型表現を特徴とする文書スタイル決定木を求めるステップ、
(c)前記スタイル固有定型表現と照合し、前記入力文書から定型表現リストを抽出するステップ、
(d)前記文書スタイル決定木を用いて、前記定型表現リストをもとに、前記入力文書の前記文書スタイルに対する確信度を算出するステップ、
(e)前記確信度をもとに、前記入力文書が属する文書スタイルを決定するステップ。 - コンピュータを制御して、以下の(a)から(d)の手段を動作させ、入力文書を文書スタイルに従って分類することを特徴とする文書分類プログラム、
(a)文書スタイルを特徴付けるスタイル固有定型表現を生成する手段、
(b)前記スタイル固有定型表現と照合し、前記入力文書から定型表現リストを抽出する手段、
(c)前記定型表現リストをもとに、前記入力文書の前記文書スタイルに対する確信度を算出する手段、
(d)前記確信度をもとに、前記入力文書が属する文書スタイルを決定する手段。 - コンピュータを制御して、以下の(a)から(e)の手段を動作させ、入力文書を文書スタイルに従って分類することを特徴とする文書分類プログラム、
(a)文書スタイルを特徴付けるスタイル固有定型表現を生成する手段、
(b)属する文書スタイルが既知である文書集合を用いて、前記スタイル固有定型表現を特徴とする文書スタイル決定木を求める手段、
(c)前記スタイル固有定型表現と照合し、前記入力文書から定型表現リストを抽出する手段、
(d)前記文書スタイル決定木を用いて、前記定型表現リストをもとに、前記入力文書の前記文書スタイルに対する確信度を算出する手段、
(e)前記確信度をもとに、前記入力文書が属する文書スタイルを決定する手段。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003348600A JP2005115628A (ja) | 2003-10-07 | 2003-10-07 | 定型表現を用いた文書分類装置・方法・プログラム |
US10/958,598 US20050149846A1 (en) | 2003-10-07 | 2004-10-06 | Apparatus, method, and program for text classification using frozen pattern |
KR1020040079931A KR20050033852A (ko) | 2003-10-07 | 2004-10-07 | 문서 분류 장치, 스타일 지정적 고정 패턴 생성 장치,입력 문서 분류 방법, 메모리 장치 또는 매체 |
CNA2004100951925A CN1607526A (zh) | 2003-10-07 | 2004-10-07 | 采用冻结模式的文本分类装置、方法及程序 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003348600A JP2005115628A (ja) | 2003-10-07 | 2003-10-07 | 定型表現を用いた文書分類装置・方法・プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005115628A true JP2005115628A (ja) | 2005-04-28 |
Family
ID=34540751
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003348600A Pending JP2005115628A (ja) | 2003-10-07 | 2003-10-07 | 定型表現を用いた文書分類装置・方法・プログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20050149846A1 (ja) |
JP (1) | JP2005115628A (ja) |
KR (1) | KR20050033852A (ja) |
CN (1) | CN1607526A (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2003108433A (ru) * | 2003-03-28 | 2004-09-27 | Аби Софтвер Лтд. (Cy) | Способ предварительной обработки изображения машиночитаемой формы |
RU2635259C1 (ru) | 2016-06-22 | 2017-11-09 | Общество с ограниченной ответственностью "Аби Девелопмент" | Способ и устройство для определения типа цифрового документа |
US7403951B2 (en) * | 2005-10-07 | 2008-07-22 | Nokia Corporation | System and method for measuring SVG document similarity |
US8359190B2 (en) * | 2006-10-27 | 2013-01-22 | Hewlett-Packard Development Company, L.P. | Identifying semantic positions of portions of a text |
JP2008186176A (ja) * | 2007-01-29 | 2008-08-14 | Canon Inc | 画像処理装置、文書結合方法および制御プログラム |
US8126837B2 (en) | 2008-09-23 | 2012-02-28 | Stollman Jeff | Methods and apparatus related to document processing based on a document type |
US8510650B2 (en) * | 2010-08-11 | 2013-08-13 | Stephen J. Garland | Multiple synchronized views for creating, analyzing, editing, and using mathematical formulas |
CN108304436B (zh) * | 2017-09-12 | 2019-11-05 | 深圳市腾讯计算机系统有限公司 | 风格语句的生成方法、模型的训练方法、装置及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06131225A (ja) * | 1992-10-16 | 1994-05-13 | Just Syst Corp | 文書処理方法及び装置 |
JPH09138801A (ja) * | 1995-11-15 | 1997-05-27 | Oki Electric Ind Co Ltd | 文字列抽出方法とシステム |
JP2002014816A (ja) * | 2000-05-02 | 2002-01-18 | Internatl Business Mach Corp <Ibm> | 判別式で決定木を生成し、それをデータ分類に使用するための方法および装置 |
JP2003271619A (ja) * | 2002-03-19 | 2003-09-26 | Toshiba Corp | 文書分類及び文書検索システムおよび方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6137911A (en) * | 1997-06-16 | 2000-10-24 | The Dialog Corporation Plc | Test classification system and method |
JP3622503B2 (ja) * | 1998-05-29 | 2005-02-23 | 株式会社日立製作所 | 特徴文字列抽出方法および装置とこれを用いた類似文書検索方法および装置並びに特徴文字列抽出プログラムを格納した記憶媒体および類似文書検索プログラムを格納した記憶媒体 |
US6542635B1 (en) * | 1999-09-08 | 2003-04-01 | Lucent Technologies Inc. | Method for document comparison and classification using document image layout |
US6766316B2 (en) * | 2001-01-18 | 2004-07-20 | Science Applications International Corporation | Method and system of ranking and clustering for document indexing and retrieval |
US7165068B2 (en) * | 2002-06-12 | 2007-01-16 | Zycus Infotech Pvt Ltd. | System and method for electronic catalog classification using a hybrid of rule based and statistical method |
US7320000B2 (en) * | 2002-12-04 | 2008-01-15 | International Business Machines Corporation | Method and apparatus for populating a predefined concept hierarchy or other hierarchical set of classified data items by minimizing system entrophy |
US7350187B1 (en) * | 2003-04-30 | 2008-03-25 | Google Inc. | System and methods for automatically creating lists |
-
2003
- 2003-10-07 JP JP2003348600A patent/JP2005115628A/ja active Pending
-
2004
- 2004-10-06 US US10/958,598 patent/US20050149846A1/en not_active Abandoned
- 2004-10-07 CN CNA2004100951925A patent/CN1607526A/zh active Pending
- 2004-10-07 KR KR1020040079931A patent/KR20050033852A/ko not_active Application Discontinuation
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06131225A (ja) * | 1992-10-16 | 1994-05-13 | Just Syst Corp | 文書処理方法及び装置 |
JPH09138801A (ja) * | 1995-11-15 | 1997-05-27 | Oki Electric Ind Co Ltd | 文字列抽出方法とシステム |
JP2002014816A (ja) * | 2000-05-02 | 2002-01-18 | Internatl Business Mach Corp <Ibm> | 判別式で決定木を生成し、それをデータ分類に使用するための方法および装置 |
JP2003271619A (ja) * | 2002-03-19 | 2003-09-26 | Toshiba Corp | 文書分類及び文書検索システムおよび方法 |
Also Published As
Publication number | Publication date |
---|---|
US20050149846A1 (en) | 2005-07-07 |
KR20050033852A (ko) | 2005-04-13 |
CN1607526A (zh) | 2005-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106156204B (zh) | 文本标签的提取方法和装置 | |
Creutz et al. | Unsupervised morpheme segmentation and morphology induction from text corpora using Morfessor 1.0 | |
Clark et al. | Bootstrapping POS-taggers using unlabelled data | |
US8676730B2 (en) | Sentiment classifiers based on feature extraction | |
CN109670039B (zh) | 基于三部图和聚类分析的半监督电商评论情感分析方法 | |
KR101813683B1 (ko) | 커널 rdr을 이용한 태깅 말뭉치 오류 자동수정방법 | |
CN109933664A (zh) | 一种基于情感词嵌入的细粒度情绪分析改进方法 | |
WO2005050473A2 (en) | Clustering of text for structuring of text documents and training of language models | |
JP2005158010A (ja) | 分類評価装置・方法及びプログラム | |
CN114528919A (zh) | 自然语言处理方法、装置及计算机设备 | |
Zheng et al. | Dynamic knowledge-base alignment for coreference resolution | |
CN112131876A (zh) | 一种基于相似度确定标准问题的方法及系统 | |
JP2019121139A (ja) | 要約装置、要約方法、及び要約プログラム | |
Wahbeh et al. | Comparative assessment of the performance of three WEKA text classifiers applied to arabic text | |
Boros et al. | Assessing the impact of OCR noise on multilingual event detection over digitised documents | |
EP1503295A1 (en) | Text generation method and text generation device | |
CN114116965A (zh) | 评论文本的观点提取方法以及电子设备 | |
JP2005115628A (ja) | 定型表現を用いた文書分類装置・方法・プログラム | |
CN116882414B (zh) | 基于大规模语言模型的评语自动生成方法及相关装置 | |
Islam et al. | Automatic authorship detection from Bengali text using stylometric approach | |
CN111611394B (zh) | 一种文本分类方法、装置、电子设备及可读存储介质 | |
Barakhnin et al. | Word reordering algorithm for poetry analysis | |
CN110008307B (zh) | 一种基于规则和统计学习的变形实体识别方法和装置 | |
CN112949287B (zh) | 热词挖掘方法、系统、计算机设备和存储介质 | |
Sato et al. | Creating Dialect Sub-corpora by Clustering: a case in Japanese for an adaptive method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061006 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20071102 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071113 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20071220 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090630 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20090925 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20091006 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20091021 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20091030 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091215 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100324 |