JP2007094855A - 文書処理装置及び文書処理方法 - Google Patents
文書処理装置及び文書処理方法 Download PDFInfo
- Publication number
- JP2007094855A JP2007094855A JP2005284885A JP2005284885A JP2007094855A JP 2007094855 A JP2007094855 A JP 2007094855A JP 2005284885 A JP2005284885 A JP 2005284885A JP 2005284885 A JP2005284885 A JP 2005284885A JP 2007094855 A JP2007094855 A JP 2007094855A
- Authority
- JP
- Japan
- Prior art keywords
- document
- information
- semantic role
- semantic
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】入力文書100から、汎用固有表現抽出部11及び意味役割語抽出部12により汎用的な固有表現及び意味役割語を抽出するとともに、汎用文書構造解析部13により基本的な文書構造を求める。文書タイプ判定部15は、これらをもとに作成された汎用的な固有表現及び意味役割語に基づく文書モデルと、各文書タイプ毎に定義された汎用的な固有表現及び意味役割語に基づく文書モデルの各々とを比較して、入力文書の文書タイプを選択する。詳細文書構造検出部16は、この文書タイプについて定義された汎用的な固有表現及び意味役割語に基づく詳細な文書構造の情報に基づいて入力文書の部分構造を検出する。意味タグ付与部17は、該詳細な文書構造に対して予め定義されている意味タグを、該検出された部分構造に付与して、出力文書101を作成する。
【選択図】図1
Description
また、装置または方法に係る本発明は、コンピュータに当該発明に相当する手順を実行させるための(あるいはコンピュータを当該発明に相当する手段として機能させるための、あるいはコンピュータに当該発明に相当する機能を実現させるための)プログラムとしても成立し、該プログラムを記録したコンピュータ読み取り可能な記録媒体としても成立する。
次に、汎用固有表現抽出部11による汎用固有表現抽出処理(図2のステップS2)について説明する。
次に、意味役割語抽出部12による意味役割語抽出処理(図2のステップS3)について説明する。
次に、汎用文書構造解析部13による汎用文書構造解析処理(図2のステップS4)について説明する。
次に、文書構造記述部14による文書構造記述処理(図2のステップS5)について説明する。
次に、文書タイプ判定部15による文書タイプ判定処理(図2のステップS6)について説明する。
ニュース一般={NEWS:8}=8,
ニュースIT={NEWS:8 CATALOG:3 RELEASE:8+3 IT_PRODUCT:2 COMPANY:2}=26
カタログ={CATALOG:3 NEWS:8 IT_PRODUCT:2}=13,
ブログ={TRACKBACK:0 DIARY:0 DATE_DAY:0 PERSON:0}=0
となる。
次に、詳細文書構造検出部16による詳細文書構造検出処理(図2のステップS7)について説明する。
最後に、意味タグ付与部17による意味タグ付与処理(図2のステップS8)について説明する。
rule1:−keyword(X)
<span class=“keyword”>X</span>
という記述(図20(a))は、先の詳細文書構造検出によってラベル付けされた“keyword”の箇所に関して適用されるルールである。なお、このルールには、便宜的にrule1という番号付けがされている。このルールの内容は、条件としてkeywordラベルの内容を変数Xにて保持し、その結果を<span class=“keyword”>タグにて詳細化するということを表している。
rule2:−title(X Y=SR[“unknown_num”])
<span class=“title”>X</span>
<span class=“IT_PRODUCT”>Y</span>
という記述(図20(b))は、先の詳細文書構造検出によってラベル付けされた“title”の箇所に関して適用されるルールであり、まず、先のrule1と同様に、内容をXで保持し、その内容を<span class=“title”>タグで囲むということを意味している。
rule3:−title(SR[X] Y=SR[“unknown_num”]|Z=[“TD”])
<span class=“spec_table_label”>X</span>
<span class=“IT_PRODUCT”>Y</span>
<span class=“spec_table”>Z</span>
という記述(図20(c))は、3つの内容から成り立っており、まず、先の詳細文書構造検出によってtitleラベルが付与された最初の意味役割語に関しては、<span class=“spec_table_label”>のタグを付与する。次に、汎用固有表現にて“unknown_num”と付与されている箇所に対しては、新たにIT_PRODUCTというIT製品名を意味する固有表現を付与する。そして最後に、titleラベルが付与されている内部構造のうち“TD”タグで囲まれている箇所に関しては、それらを<span class=“spec_table”>というタグで囲んで出力するということを表している。
rule4:−para(X)
<span class=“para”>X</span>
という記述(図20(d))は、rule1、rule2と同様、詳細文書構造検出によってparaと判定された部分構造に関しては、<span class=“para”>のタグを付与することを示している。
rule_x:−SR[X]
<span class=“$SR”>X</span>
という記述(図20(e))は、以上のルールが適用されていない意味役割語Xに関して、その意味役割をclassの属性値としてタグを付与しておくことを意味している。
rule_y:−SC[Y]
<span class=“$SC”>Y</span>
という記述(図20(f))は、以上のルールが適用されていない汎用固有表現に対して、その汎用固有表現のクラスをclassの属性値として付与することを示している。
この入力文書に対して、汎用固有表現抽出部11により、まず、テキストノードから、解析対象となるテキスト文が収集される。
次に、意味役割語抽出部12により、先の汎用固有表現抽出処理と同様、まず、テキストノードからテキスト文が抽出された後、そのテキスト文を対象として意味役割語抽出が行なわれる。
続いて、汎用文書構造解析部13により、入力文書構造の解析が行なわれる。
さらに、文書構造記述部14により、ここまでの処理結果である汎用固有表現抽出結果と、意味役割語抽出結果と、汎用構造解析結果をもとに、入力文書の文書構造記述形式をリストの形で作成する。
続いて、文書タイプ判定部15において、このようにして得られた文書構造をもとに、文書タイプの判定を行なう。
続いて、詳細文書構造検出部16において、詳細な文書構造の検出を行う。
最後に、意味タグ付与部17において、これまでの処理により特定された詳細な文書構造をもとに、入力文書に対してタグ付与を行う。
また、本実施形態は、コンピュータに所定の手順を実行させるための、あるいはコンピュータを所定の手段として機能させるための、あるいはコンピュータに所定の機能を実現させるためのプログラムとして実施することもできる。加えて該プログラムを記録したコンピュータ読取り可能な記録媒体として実施することもできる。
Claims (15)
- 文書構造を有する入力文書から、汎用的な固有表現に関する情報を抽出する第1の抽出手段と、
前記入力文書の意味役割を特徴付ける意味役割語に関する情報を抽出する第2の抽出手段と、
前記入力文書を解析して基本的な文書構造に関する情報を求める解析手段と、
求められた前記文書構造に関する情報と、抽出された前記汎用固有表現に関する情報及び前記意味役割語に関する情報とを関連付けて保持する保持手段と、
複数の文書タイプのそれぞれについて予め定義された、汎用的な固有表現及び意味役割語に基づく文書モデルの各々と、前記保持手段に保持されている前記情報をもとに作成された、汎用的な固有表現及び意味役割語に基づく文書モデルとを比較して、前記入力文書の文書タイプを選択する選択手段と、
前記入力文書について選択された前記文書タイプに基づいて、前記入力文書の部分構造を検出する検出手段と、
前記文書タイプに対して予め定義されている意味タグを、前記入力文書から検出された前記部分構造に付与する付与手段とを備えたことを特徴とする文書処理装置。 - 前記第1の抽出手段により抽出された前記汎用的な固有表現に関する情報は、前記入力文書から抽出された汎用的な固有表現と、前記入力文書から構造を除去してなるテキスト文の集合において当該汎用的な固有表現が出現する行を示す情報と、この行において当該汎用的な固有表現が出現する文字位置を示す情報と、当該汎用的な固有表現について予め定義されている意味分類名を示す情報とを含むものであることを特徴とする請求項1に記載の文書処理装置。
- 前記第2の抽出手段により抽出された前記意味役割語に関する情報は、前記入力文書から抽出された意味役割語と、前記入力文書から構造を除去してなるテキスト文の集合において当該意味役割語が出現する行を示す情報と、この行において当該意味役割語が出現する文字位置を示す情報と、当該意味役割語について予め定義されている意味役割を示す情報とを含むものであることを特徴とする請求項1に記載の文書処理装置。
- 前記解析手段は、前記入力文書中に記述されている、タイトル、章見出し、表、箇条書き、図、パラグラフ、フォント又は文字修飾を含む構造に係る情報を検出することを特徴とする請求項1に記載の文書処理装置。
- 前記保持手段は、前記文書構造に関する情報を木構造の形式で保持するとともに、任意の部分構造に関する情報として、包含するテキストノード数と、抽出された汎用的な固有表現に関する情報及び抽出された意味役割語に関する情報とを保持することを特徴とする請求項1に記載の文書処理装置。
- 前記保持手段は、前記入力文書に含まれるテキストノードに基づく文書構造をリストの形式で表現し、前記入力文書に出現するテキストノードを構造の深いものから優先して該リストの要素に追加していくことで階層に関する情報を保持することを特徴とする請求項1に記載の文書処理装置。
- 前記選択手段は、前記入力文書中に出現する汎用的な固有表現の重み付け及び意味役割語の重み付けを、それが属する構造又はその周辺の構造に関して予め定義された重み付け補正情報に基づいて、変更することを特徴とする請求項1に記載の文書処理装置。
- 前記選択手段は、前記入力文書中に出現する汎用的な固有表現及び意味役割語並びにそれらの属する構造をもとに、複数の文書タイプのそれぞれについて予め定義された文書モデルとの比較を行い、重み付けされた固有表現及び意味役割語の出現の類似性から、類似度の高い文書モデルに係る文書タイプを優先して選択することを特徴とする請求項1に記載の文書処理装置。
- 前記検出手段は、選択された前記文書タイプについて予めルール定義されている宣言的な条件の記述を適用することにより、前記入力文書の大局的な構造が条件と適合することが確認された場合にのみ、さらに詳細な部分構造を検出する処理を行うことを特徴とする請求項1に記載の文書処理装置。
- 前記検出手段は、前記入力文書の部分構造を検出する際に、繰り返し出現する部分構造を特定する手段と、繰り返しの部分構造に係るテキストノード数及び階層深さに基づき、繰り返しの部分構造の複雑さの順序付けを行なう手段と、最も複雑な部分構造を選択する手段とを含むことを特徴とする請求項1に記載の文書処理装置。
- 前記検出手段は、選択された前記文書タイプについて予めルール定義されている詳細化条件の記述である構造又は語の一致条件の指定に、確率的な指定記述を可能としたことを特徴とする請求項1に記載の文書処理装置。
- 前記検出手段は、選択された前記文書タイプについて予めルール定義されている詳細化条件を適用する際に、前記入力文書に出現している部分構造の出現頻度、意味役割語の出現頻度、又は汎用固有表現抽出の出現頻度の統計情報の利用を可能としたことを特徴とする請求項1に記載の文書処理装置。
- 前記検出手段は、前記入力文書の部分構造に繰り返して出現する同表記の文字列を特定する手段を有するとともに、部分構造の意味指定を排他的に定義することを可能としたことを特徴とする請求項1に記載の文書処理装置。
- 前記付与手段は、前記検出手段により得られた検出結果に基づき、特定された部分構造又は表現を変数として変換後の構造を記述するルールに従い、未知語又はタグが未付与の箇所を含んだ部分構造へのタグ付与を行うことを特徴とする請求項1に記載の文書処理装置。
- 文書構造を有する入力文書から、汎用的な固有表現に関する情報を抽出するステップと、
前記入力文書の意味役割を特徴付ける意味役割語に関する情報を抽出するステップと、
前記入力文書を解析して基本的な文書構造に関する情報を求めるステップと、
求められた前記文書構造に関する情報と、抽出された前記汎用固有表現に関する情報及び前記意味役割語に関する情報とを関連付けて保持手段に保持するステップと、
複数の文書タイプのそれぞれについて予め定義された、汎用的な固有表現及び意味役割語に基づく文書モデルの各々と、前記保持手段に保持されている前記情報をもとに作成された、汎用的な固有表現及び意味役割語に基づく文書モデルとを比較して、前記入力文書の文書タイプを選択するステップと、
前記入力文書について選択された前記文書タイプに基づいて、前記入力文書の部分構造を検出するステップと、
前記文書タイプに対して予め定義されている意味タグを、前記入力文書から検出された前記部分構造に付与するステップとを有することを特徴とする文書処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005284885A JP4521343B2 (ja) | 2005-09-29 | 2005-09-29 | 文書処理装置及び文書処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005284885A JP4521343B2 (ja) | 2005-09-29 | 2005-09-29 | 文書処理装置及び文書処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007094855A true JP2007094855A (ja) | 2007-04-12 |
JP4521343B2 JP4521343B2 (ja) | 2010-08-11 |
Family
ID=37980481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005284885A Active JP4521343B2 (ja) | 2005-09-29 | 2005-09-29 | 文書処理装置及び文書処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4521343B2 (ja) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008262383A (ja) * | 2007-04-12 | 2008-10-30 | Fujitsu Ltd | 文書データ表示処理プログラム,処理方法,処理装置,および処理システム |
JP2009098927A (ja) * | 2007-10-17 | 2009-05-07 | Dainippon Printing Co Ltd | ユーザのアクションを利用した推薦情報配信方法および推薦情報配信サーバ |
JP2009244950A (ja) * | 2008-03-28 | 2009-10-22 | Internatl Business Mach Corp <Ibm> | 情報分類システム、情報処理装置、情報分類方法およびプログラム |
JP2009294950A (ja) * | 2008-06-05 | 2009-12-17 | Toshiba Corp | 文書構造化処理装置、及び方法 |
JP2010182291A (ja) * | 2009-02-03 | 2010-08-19 | Nec (China) Co Ltd | 知識注釈結果検査方法および知識注釈結果検査システム |
JP2010237867A (ja) * | 2009-03-30 | 2010-10-21 | Nomura Research Institute Ltd | メタデータ自動付与システム及び方法 |
JP2010282480A (ja) * | 2009-06-05 | 2010-12-16 | Nippon Telegr & Teleph Corp <Ntt> | 検索結果ランキング方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 |
JP2012053672A (ja) * | 2010-09-01 | 2012-03-15 | Nec Corp | タグ付け装置、タグ付け方法およびプログラム |
JP5324018B1 (ja) * | 2012-10-19 | 2013-10-23 | 楽天株式会社 | コーパス生成装置、コーパス生成方法及びコーパス生成プログラム |
WO2014061285A1 (ja) * | 2012-10-19 | 2014-04-24 | 楽天株式会社 | コーパス生成装置、コーパス生成方法及びコーパス生成プログラム |
US9645979B2 (en) | 2013-09-30 | 2017-05-09 | Rakuten, Inc. | Device, method and program for generating accurate corpus data for presentation target for searching |
JP2021518027A (ja) * | 2018-12-27 | 2021-07-29 | チャイナ ユニオンペイ カンパニー リミテッド | セマンティックテキストデータをタグとマッチングさせる方法、装置、及び命令を格納するコンピュータ読み取り可能な記憶媒体 |
JP2022034816A (ja) * | 2020-08-19 | 2022-03-04 | ヤフー株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1063649A (ja) * | 1996-08-15 | 1998-03-06 | Niigata Nippon Denki Software Kk | タグ付加文書作成方法および装置 |
JP2005228033A (ja) * | 2004-02-13 | 2005-08-25 | Fuji Xerox Co Ltd | 文書検索装置および方法 |
-
2005
- 2005-09-29 JP JP2005284885A patent/JP4521343B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1063649A (ja) * | 1996-08-15 | 1998-03-06 | Niigata Nippon Denki Software Kk | タグ付加文書作成方法および装置 |
JP2005228033A (ja) * | 2004-02-13 | 2005-08-25 | Fuji Xerox Co Ltd | 文書検索装置および方法 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008262383A (ja) * | 2007-04-12 | 2008-10-30 | Fujitsu Ltd | 文書データ表示処理プログラム,処理方法,処理装置,および処理システム |
JP2009098927A (ja) * | 2007-10-17 | 2009-05-07 | Dainippon Printing Co Ltd | ユーザのアクションを利用した推薦情報配信方法および推薦情報配信サーバ |
JP2009244950A (ja) * | 2008-03-28 | 2009-10-22 | Internatl Business Mach Corp <Ibm> | 情報分類システム、情報処理装置、情報分類方法およびプログラム |
US9245012B2 (en) | 2008-03-28 | 2016-01-26 | International Business Machines Corporation | Information classification system, information processing apparatus, information classification method and program |
JP2009294950A (ja) * | 2008-06-05 | 2009-12-17 | Toshiba Corp | 文書構造化処理装置、及び方法 |
US8423503B2 (en) | 2009-02-03 | 2013-04-16 | Nec (China) Co., Ltd. | Knowledge annotation result checking method and system |
JP2010182291A (ja) * | 2009-02-03 | 2010-08-19 | Nec (China) Co Ltd | 知識注釈結果検査方法および知識注釈結果検査システム |
JP2010237867A (ja) * | 2009-03-30 | 2010-10-21 | Nomura Research Institute Ltd | メタデータ自動付与システム及び方法 |
JP2010282480A (ja) * | 2009-06-05 | 2010-12-16 | Nippon Telegr & Teleph Corp <Ntt> | 検索結果ランキング方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 |
JP2012053672A (ja) * | 2010-09-01 | 2012-03-15 | Nec Corp | タグ付け装置、タグ付け方法およびプログラム |
JP5324018B1 (ja) * | 2012-10-19 | 2013-10-23 | 楽天株式会社 | コーパス生成装置、コーパス生成方法及びコーパス生成プログラム |
WO2014061285A1 (ja) * | 2012-10-19 | 2014-04-24 | 楽天株式会社 | コーパス生成装置、コーパス生成方法及びコーパス生成プログラム |
US9645979B2 (en) | 2013-09-30 | 2017-05-09 | Rakuten, Inc. | Device, method and program for generating accurate corpus data for presentation target for searching |
JP2021518027A (ja) * | 2018-12-27 | 2021-07-29 | チャイナ ユニオンペイ カンパニー リミテッド | セマンティックテキストデータをタグとマッチングさせる方法、装置、及び命令を格納するコンピュータ読み取り可能な記憶媒体 |
JP7164701B2 (ja) | 2018-12-27 | 2022-11-01 | チャイナ ユニオンペイ カンパニー リミテッド | セマンティックテキストデータをタグとマッチングさせる方法、装置、及び命令を格納するコンピュータ読み取り可能な記憶媒体 |
US11586658B2 (en) | 2018-12-27 | 2023-02-21 | China Unionpay Co., Ltd. | Method and device for matching semantic text data with a tag, and computer-readable storage medium having stored instructions |
JP2022034816A (ja) * | 2020-08-19 | 2022-03-04 | ヤフー株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
JP7136856B2 (ja) | 2020-08-19 | 2022-09-13 | ヤフー株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4521343B2 (ja) | 2010-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4521343B2 (ja) | 文書処理装置及び文書処理方法 | |
US9600533B2 (en) | Matching and recommending relevant videos and media to individual search engine results | |
US7739257B2 (en) | Search engine | |
US7958444B2 (en) | Visualizing document annotations in the context of the source document | |
US20160117395A1 (en) | Optimized ontology based internet search systems and methods | |
KR101136007B1 (ko) | 문서 감성 분석 시스템 및 그 방법 | |
US8983965B2 (en) | Document rating calculation system, document rating calculation method and program | |
JP2003114906A (ja) | ユーザ定義可能なパーソナリティを備えたメタ文書管理システム | |
JP2005122295A (ja) | 関係図作成プログラム、関係図作成方法、および関係図作成装置 | |
CN102955848A (zh) | 一种基于语义的三维模型检索系统和方法 | |
JP2020113129A (ja) | 文書評価装置、文書評価方法及びプログラム | |
JP2007047974A (ja) | 情報抽出装置および情報抽出方法 | |
Moncla et al. | Automated geoparsing of paris street names in 19th century novels | |
JP5345987B2 (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
JP5447368B2 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
JP2021064143A (ja) | 文作成装置、文作成方法および文作成プログラム | |
JP5269399B2 (ja) | 構造化文書検索装置、方法およびプログラム | |
JP2007279978A (ja) | 文書検索装置及び文書検索方法 | |
JP4148247B2 (ja) | 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP2006227914A (ja) | 情報検索装置、情報検索方法、プログラム、記憶媒体 | |
JP2014049044A (ja) | コンテンツ管理装置、コンテンツ管理システム、コンテンツ管理方法、プログラム、及び記憶媒体 | |
JP4301879B2 (ja) | 抄録作成支援システム及び特許文献検索システム | |
Kim et al. | Annotated Bibliographical Reference Corpora in Digital Humanities. | |
EP1072986A2 (en) | System and method for extracting data from semi-structured text | |
JP4907927B2 (ja) | データ表示装置、データ表示方法およびデータ表示プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20081128 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081209 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090209 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091013 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091214 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100427 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100524 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130528 Year of fee payment: 3 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4521343 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130528 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140528 Year of fee payment: 4 |