JP5172308B2 - テキスト整形規則獲得装置、構造判定装置、それらのプログラム - Google Patents
テキスト整形規則獲得装置、構造判定装置、それらのプログラム Download PDFInfo
- Publication number
- JP5172308B2 JP5172308B2 JP2007319782A JP2007319782A JP5172308B2 JP 5172308 B2 JP5172308 B2 JP 5172308B2 JP 2007319782 A JP2007319782 A JP 2007319782A JP 2007319782 A JP2007319782 A JP 2007319782A JP 5172308 B2 JP5172308 B2 JP 5172308B2
- Authority
- JP
- Japan
- Prior art keywords
- text
- rule
- shaping
- row
- morphemes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
<http://tech.yahoo.com/blogs/hughes/8431;ylt=Agh6OsDQIU21I9Ld1UIErNEmLpA5 >の"Yahoo Tech"というWEBサイトの記事(Fri Jan 19,2007 5:26AM EST) "From Blog to Podcast with Odiogo" <http://www.odiogo.com/press.php>のYahooTech’Techie Diva (January19,2007)の"From Blog to Podcast with Odiogo"
また、記憶装置100とテキスト整形規則獲得装置200−1とは統合させてもよい。
図9に変形例1のテキスト整形規則獲得装置200−2の機能構成例を示し、図10にテキスト整形規則獲得装置200−2の主な処理の流れを示す。図11に変形例1のテキスト整形規則獲得装置200−2による整形規則獲得の対象となるテキストの例を示す。テキスト整形規則獲得装置200−2は、つながり度計算部12がない点でテキスト整形規則獲得装置200−1と異なる。図11に示すテキストは、14行目〜19行目がない点で、図3に示したテキストと異なる。例えば、図11に示したテキストについてのクラスタリング部16によるクラスタリング結果は図12に示すようになる。この場合には、つながり度を用いなくても、例えば、テキスト中の各行において行頭の1以上の形態素が共通しているかを見て、共通している形態素があれば(この例では「>」)、同位置に当該形態素を有する行を非主要行であることを示す規則の候補となるクラスタとすればよい。従って、例えば図11に示したテキストについて規則を生成する場合は、つながり度計算部12(図2記載のステップS12)を設ける必要がなく、結果として、演算処理の削減を図ることができる。
Claims (9)
- N行(Nは2以上の整数)からなるテキスト中の全ての行について形態素解析を行うことで形態素に分割する形態素解析部と、
回帰モデルを用いて、N行全てについて、第n行目(n=1,...,N−1)の行末の1以上の形態素と、第n+1行目の行頭の1以上の形態素とを用いて、第n行目の行と第n+1行目の行とがつながる可能性を示すつながり度を計算するつながり度計算部と、
第n+1行目の行頭の1以上の形態素と、第n行目の行と第n+1行目の行とのつながり度を用いて、形態素に分割された前記テキストのN行全ての行についてクラスタリングをするクラスタリング部と、
主要文に属する主要行であること、または非主要文に属する非主要行であること、のうち少なくとも一方を示す整形規則を前記クラスタリングの情報から生成する規則生成部と、を備えるテキスト整形規則獲得装置。 - 請求項1記載のテキスト整形規則獲得装置であって、
前記つながり度計算部は、前記つながり度を離散的に出力することを特徴とするテキスト整形規則獲得装置。 - 請求項1または2に記載のテキスト整形規則獲得装置であって、
前記規則生成部は、少なくとも1つのクラスタ中において、形態素が1つ以上共通している項を規則として整形規則を生成するものであることを特徴とするテキスト整形規則獲得装置。 - 請求項1〜3の何れかに記載のテキスト整形規則獲得装置であって、
前記テキストから、予め定められた第1除去対象記号を除去する第1除去部を有し、
前記クラスタリング部は、前記第1除去対象記号を除去したテキストについて処理を行うことを特徴とするテキスト整形規則獲得装置。 - 請求項1〜4の何れかに記載のテキスト整形規則獲得装置であって、
前記整形規則中の前記非主要行を示す規則の始めの1以上の形態素を第2除去対象記号として、当該第2除去対象記号を前記テキストから除去する第2除去部を有し、
前記クラスタリング部は、前記第2除去対象記号を除去したテキストについて処理を行うことを特徴とするテキスト整形規則獲得装置。 - 請求項1〜5の何れかに記載のテキスト整形規則獲得装置であって、
前記生成された整形規則のうち、必要な規則のみを残すための選択情報が入力される入力部を備え、
前記規則生成部は、前記選択情報で示す必要な規則のみを残すことを特徴とするテキスト整形規則獲得装置。 - 請求項1〜6の何れかに記載のテキスト整形規則獲得装置と、
入力されたテキストについて当該テキスト整形規則獲得装置により生成された整形規則を用いて、前記テキストから前記非主要行であることを判定する判定部と、を備える構造判定装置。 - 請求項1〜6の何れかに記載されるテキスト整形規則獲得装置の各部としてコンピュータを機能させるためのプログラム。
- 請求項7に記載される構造判定装置の各部としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007319782A JP5172308B2 (ja) | 2007-12-11 | 2007-12-11 | テキスト整形規則獲得装置、構造判定装置、それらのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007319782A JP5172308B2 (ja) | 2007-12-11 | 2007-12-11 | テキスト整形規則獲得装置、構造判定装置、それらのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009145966A JP2009145966A (ja) | 2009-07-02 |
JP5172308B2 true JP5172308B2 (ja) | 2013-03-27 |
Family
ID=40916540
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007319782A Expired - Fee Related JP5172308B2 (ja) | 2007-12-11 | 2007-12-11 | テキスト整形規則獲得装置、構造判定装置、それらのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5172308B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344393B (zh) * | 2018-08-29 | 2023-04-07 | 北京云知声信息技术有限公司 | 一种主干语句的提取方法及系统 |
CN111400491A (zh) * | 2018-12-27 | 2020-07-10 | 北大方正集团有限公司 | 公式主体定位方法、装置、设备及计算机可读存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07160685A (ja) * | 1993-12-06 | 1995-06-23 | Canon Inc | 文章読み上げ装置 |
JPH10133853A (ja) * | 1996-10-29 | 1998-05-22 | Nippon Telegr & Teleph Corp <Ntt> | 電子メール書換え方法及び装置 |
JPH1185458A (ja) * | 1997-09-10 | 1999-03-30 | Toyota Motor Corp | 電子メール装置及び電子メールの音声読み上げ方法並びにプログラムを記録した媒体 |
JP4200650B2 (ja) * | 2000-10-20 | 2008-12-24 | 沖電気工業株式会社 | 電子メール要約転送システム |
-
2007
- 2007-12-11 JP JP2007319782A patent/JP5172308B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009145966A (ja) | 2009-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Slimane et al. | A new arabic printed text image database and evaluation protocols | |
US10360294B2 (en) | Methods and systems for efficient and accurate text extraction from unstructured documents | |
JP4940973B2 (ja) | 論理構造認識処理プログラム、論理構造認識処理方法および論理構造認識処理装置 | |
JP5071373B2 (ja) | 言語処理装置、言語処理方法および言語処理用プログラム | |
JP2005158010A (ja) | 分類評価装置・方法及びプログラム | |
JP5625827B2 (ja) | 形態素解析装置、音声合成装置、形態素解析方法及び形態素解析プログラム | |
Leonandya et al. | A semi-supervised algorithm for Indonesian named entity recognition | |
JP5215051B2 (ja) | テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 | |
JP2004318510A (ja) | 対訳情報作成装置、対訳情報作成用プログラム、対訳情報作成方法、対訳情報検索装置、対訳情報検索用プログラム及び対訳情報検索方法 | |
JP2010061176A (ja) | テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム | |
JP2006330935A (ja) | 学習データ作成プログラム、学習データ作成方法および学習データ作成装置 | |
CN110019821A (zh) | 文本类标训练方法和识别方法、相关装置及存储介质 | |
JP5172308B2 (ja) | テキスト整形規則獲得装置、構造判定装置、それらのプログラム | |
Huynh et al. | GATE framework based metadata extraction from scientific papers | |
JP5853595B2 (ja) | 形態素解析装置、方法、プログラム、音声合成装置、方法、プログラム | |
JP2011238159A (ja) | 計算機システム | |
JP5447368B2 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
JP2008225846A (ja) | 単語意味タグ付与装置および方法、プログラム並びに記録媒体 | |
JP4196824B2 (ja) | 情報区分装置、情報区分方法及び情報区分プログラム | |
CN112949287B (zh) | 热词挖掘方法、系统、计算机设备和存储介质 | |
Yona et al. | A finite-state morphological grammar of Hebrew | |
JP5326781B2 (ja) | 抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラム | |
US20210073258A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
JPWO2013115154A1 (ja) | 同表記異義語識別装置、方法及びプログラム | |
JP5990124B2 (ja) | 略語生成装置、略語生成方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100114 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110812 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120607 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120612 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120725 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120814 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120925 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121023 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121126 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121218 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121226 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5172308 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |