JP2006318509A - 解データ編集処理装置および処理方法 - Google Patents
解データ編集処理装置および処理方法 Download PDFInfo
- Publication number
- JP2006318509A JP2006318509A JP2006222723A JP2006222723A JP2006318509A JP 2006318509 A JP2006318509 A JP 2006318509A JP 2006222723 A JP2006222723 A JP 2006222723A JP 2006222723 A JP2006222723 A JP 2006222723A JP 2006318509 A JP2006318509 A JP 2006318509A
- Authority
- JP
- Japan
- Prior art keywords
- solution
- user
- text
- evaluation
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 評価カスタマイズ手段110は,テキスト・要約4からユーザが指定した範囲の文データを抽出してユーザ指定要約とし,複数の要約性質ごとの評価の入力項目を表示し,ユーザ指定要約についてユーザの評価入力を受け付け,所定規則または機械学習法による自動要約生成処理によりテキストの要約を生成する。そして,テキストとユーザ指定要約で構成される問題に対してユーザ入力評価である解を付与したデータと,テキストとユーザ指定要約以外の部分で構成される問題に対してユーザ指定要約ではないことを示す悪い評価である解を付与したデータとを含む解データを生成して解データ記憶部120に出力する。
【選択図】 図1
Description
伊藤山彦他,「講演文を対象にした重要文抽出」,言語処理学会第7回年次大会発表論文集,言語処理学会,2001年,pp.305-308 平尾勉他,「Support Vector Machineによる重要文抽出」,情報学会基礎論文63-16 ,情報学会,2001年,pp.121-127
図1に,第1の実施の形態における本発明の処理装置の構成例を示す。
事例c1:テキスト−要約結果r1→評価1,
事例c2:テキスト−要約結果r2→評価3,
事例c3:テキスト−要約結果r3→評価2
となり,機械学習部122は,これらの解データをもとに,どのような場合に評価1〜評価3になるかを機械学習で学習する。例えば,事例c1→評価1や事例c3→評価2から,機械学習部122は,精度の表現,例えば「数字+[%]」の表現が出現すると評価が高くなるなどを学習する。ここで,「数字+[%]」の表現は,学習に用いる素性の例である。
事例c1:テキスト−要約結果r1→評価3,
事例c2:テキスト−要約結果r2→評価1,
事例c3:テキスト−要約結果r3→評価2
となり,機械学習部122は,「手がかり表現」や「用例」などの手法に相当する専門用語が出現すると評価が高くなるように学習する。
「事例c1:テキスト−要約結果r1→評価2,
事例c2:テキスト−要約結果r2→評価2,
事例c3:テキスト−要約結果r3→評価1」
となり,機械学習部122は,精度の表現または手法に相当する表現の両方が出現すると評価が高くなるように学習する。
[参考文献1:村田真樹,内山将夫,内元清貴,馬青,井佐原均,種々の機械学習法を用いた多義解消実験,電子情報通信学会言語理解とコミュニケーション研究会,NCL2001-2, (2001) ]
[参考文献2:Nello Cristianini and John Shawe-Taylor, An Introduction to Support Vector Machines and Other Kernel-based Learning Methods,(Cambridge University Press,2000) ]
[参考文献3:Taku Kudoh, Tinysvm:Support Vector machines,(http://cl.aist-nara.ac.jp/taku-ku//software/TinySVM/index.html,2000) ]
その後,要約を求めたいテキスト2が入力されると(ステップS13),要約候補生成部124は,例えば以下に示すような処理モデルを用いて,テキスト2から要約候補を作成する(ステップS14)。
重要文選択モデルとは,文を単位に要約し,重要と思われる文のみを選択して残すことにより要約を実現するモデルである。このモデルの場合には,あらゆる文選択の状態をすべて解の候補とするとよい。また,すべてを解の候補とすると計算速度に支障が生じる場合には,予め備えておいた選択規則を用いて,この選択規則を満足する文の選択状態のみを解の候補とする。すなわち,所定の選択規則により候補数を減少させて処理の負荷を軽減する。なお,選択規則は,人手による規則であってもよい。
重要箇所選択モデルとは,文よりも小さいものを要約の単位として,不要なものを削除することにより要約を実現するモデルである。単位を文より小さいものとすること以外については,上記1)重要文選択モデルと同様である。文よりも小さいものとして,例えば文節を用いる。すなわち,文節を単位として不要な文節を消していくことにより要約を実現する。この重要箇所選択モデルの場合は,あらゆる文節の選択の状態をすべて解の候補とする。また,すべてを解の候補とすると計算速度に支障が生じる場合には,上記1)重要文選択モデルと同様に,予め選択規則を用意しておき,この選択規則を満足する文の選択状態のみを解の候補とする。
変形規則を利用したモデルとは,予め用意した変形規則を利用して要約結果を生成するモデルである。変形規則は,自動処理により獲得するか,または人手で作成しておいたものを利用する。例えば,「Xして,Yした。」を「Xした。」もしくは「Yした。」に書き換えるような変形規則を作っておき,この変形規則に従って入力「Aして,Bした。」が与えられたときに「Aした。」や「Bした。」という要約候補を生成する。
ランダムジェネレーションを利用したモデルは,例えば,入力「・・・X・・・」があったときに「・・・Y・・・」を要約候補とするようなモデルである。このとき,置き換えられるXはランダムに選ばれてもよいし,予め用意しておいた置換規則によって指定してもよい。置換規則は,人手によって生成されたものや,自動獲得したものなどを用いる。また,置き換えた先の表現Yは,ある辞書の単語もしくは文字列の集合からランダムに選ばれてもよいし,予め用意しておいた変換規則によって指定してもよい。変換規則は,置換規則と同様,人手によって生成されたものや,自動獲得したものなどを用いる。このとき,XやYをランダムに選ばずに,変換規則にもとづいて選ぶとすると,変形規則を利用したモデルと同じようなものになる。
図8に,第2の実施の形態における本発明の処理装置の構成例を示す。図8に示す自動要約処理装置30は,図1に示す自動要約処理装置10の評価カスタマイズ手段110の代わりに評価カスタマイズ手段140を備え,また自動要約処理装置10を構成する評価カスタマイズ手段110以外の処理手段を備える。
図15に,第3の実施の形態における本発明の処理装置の構成例を示す。図15に示す自動要約処理装置50は,図1に示す自動要約処理装置10の評価カスタマイズ手段110の代わりに評価カスタマイズ手段150を備え,また他の処理手段として,自動要約処理装置10を構成する処理手段と同様の処理手段を備える。
+a(数量表現重視)×score(数量表現重視)
+a(手法重視) ×score(手法重視)
+a(文体重視) ×score(文体重視)
+a(読みやすさ重視) ×score(読みやすさ重視)
ただし,a(X)はユーザが指定した性質情報Xのスライドバーのスライドボタン位置から求まる値である。スライドボタンがスライドバーの右側に位置するほど大きな値を持つとしている。score(X)は学習結果データにもとづいて算出された性質情報Xの評価の値である。要約選択部128は,この組合せ値 Total_Score が最も大きい要約候補−推定解対127を選択し,その要約候補を要約3として出力する。
図20に,第4の実施の形態における本発明の処理の構成例を示す。図20に示す自動要約処理装置70は,解データ記憶部120と,解−素性対抽出部121と,機械学習部122と,学習結果データ記憶部123と,素性抽出部125と,解推定部160と,評価カスタマイズ手段140とを備える。
110 評価カスタマイズ手段
111 要約表示部
112 評価付与部
120 解データ記憶部
121 解−素性対抽出部
122 機械学習部
123 学習結果データ記憶部
124 要約候補生成部
125 素性抽出部
126 要約候補−推定解対生成部
127 要約候補−推定解対
128 要約選択部
130 解データ記憶部
131 素性−解対・素性−解候補対抽出部
132 機械学習部
133 学習結果データ記憶部
134 要約候補生成部
135 素性−解候補抽出部
136 要約候補−推定解対生成部
137 要約候補−推定解対
138 要約選択部
140 評価カスタマイズ手段
141 テキスト表示部
142 要約編集部
150 評価カスタマイズ手段
151 要約表示部
152 性質情報設定部
160 解推定部
161 推定解
2 テキスト
3 要約
4 テキスト・要約
5 テキスト
7 ユーザ評価設定情報
Claims (6)
- 文書データであるテキストを機械学習法により自動要約する処理で用いる解データを編集する解データ編集処理装置であって,
文書データであるテキストを記憶するテキスト記憶手段と,
前記テキスト記憶手段から取得したテキストを表示装置に表示する処理手段と,
前記テキストからユーザによって指定された範囲の文データを抽出して前記テキストのユーザ指定要約とし,複数の要約の性質ごとの評価を入力する項目を表示して,前記ユーザ指定要約について前記性質ごとのユーザの評価の入力を受け付ける処理手段と,
所定の規則に基づいて要約を生成する処理もしくは機械学習法を用いて要約を生成する処理のいずれかの自動要約生成処理により前記テキストの要約を生成する処理手段と,
前記テキストおよび前記ユーザ指定要約で構成される問題に対し前記性質ごとに前記ユーザが入力した評価を解として付与したデータと,前記テキストおよび前記自動要約生成処理による要約であって前記ユーザ指定要約以外の部分からなるもので構成される問題に対し前記性質ごとにユーザ指定要約ではないことを示す所定の悪い評価を解として付与したデータとを含む解データを生成して解データ記憶手段に出力する処理手段とを備える
ことを特徴とする解データ編集処理装置。 - 請求項1に記載の解データ編集処理装置において,
前記要約を生成する処理手段は,さらに,ユーザによって指定された部分の語句の変更の入力を受け付け,変更された前記部分を前記ユーザ指定要約とする
ことを特徴とする解データ編集処理装置。 - 請求項1に記載の解データ編集処理装置において,
前記要約を生成する処理手段は,前記自動要約生成処理による要約であって前記ユーザ指定要約以外の部分からなるものに対して前記性質ごとの評価を入力する項目を表示し,前記要約について前記性質ごとのユーザの評価の入力を受け付け,
前記解データを出力する処理手段は,前記自動要約生成処理による要約の評価としてユーザの評価の入力を受け付けた場合に,前記テキストおよび前記要約であって前記ユーザ指定要約以外の部分からなるもので構成される問題に対し前記要約に対してユーザが入力した評価を解として付与したデータを解データとして生成する
ことを特徴とする解データ編集処理装置。 - コンピュータが,文書データであるテキストを機械学習法により自動要約する処理で用いる解データを編集する解データ編集処理方法であって,
文書データであるテキストを記憶するテキスト記憶手段にアクセスしてテキストを取得する処理過程と,
前記テキストを表示装置に表示する処理過程と,
前記テキストからユーザによって指定された範囲の文データを抽出して前記テキストのユーザ指定要約とし,複数の要約の性質ごとの評価を入力する項目を表示して,前記ユーザ指定要約について前記性質ごとのユーザの評価の入力を受け付ける処理過程と,
所定の規則に基づいて要約を生成する処理もしくは機械学習法を用いて要約を生成する処理のいずれかの自動要約生成処理により前記テキストの要約を生成する処理過程と,
前記テキストおよび前記ユーザ指定要約で構成される問題に対し前記性質ごとに前記ユーザが入力した評価を解として付与したデータと,前記テキストおよび前記自動要約生成処理による要約であって前記ユーザ指定要約以外の部分からなるもので構成される問題に対し前記性質ごとにユーザ指定要約ではないことを示す所定の悪い評価を解として付与したデータとを含む解データを生成して解データ記憶手段に出力する処理過程とを備える
ことを特徴とする解データ編集処理方法。 - 請求項4に記載の解データ編集処理方法において,
前記要約を生成する処理過程では,さらに,ユーザによって指定された部分の語句の変更の入力を受け付け,変更された前記部分を前記ユーザ指定要約とする
ことを特徴とする解データ編集処理方法。 - 請求項4に記載の解データ編集処理方法において,
前記要約を生成する処理過程では,前記自動要約生成処理による要約であって前記ユーザ指定要約以外の部分からなるものに対して前記性質ごとの評価を入力する項目を表示し,前記要約について前記性質ごとのユーザの評価の入力を受け付ける処理を行い,
前記解データを出力する処理過程では,前記自動要約生成処理による要約の評価としてユーザの評価の入力を受け付けた場合に,前記テキストおよび前記要約であって前記ユーザ指定要約以外の部分からなるもので構成される問題に対し前記要約に対してユーザが入力した評価を解として付与したデータを解データとして生成する処理を行う
ことを特徴とする解データ編集処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006222723A JP4106470B2 (ja) | 2006-08-17 | 2006-08-17 | 解データ編集処理装置および処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006222723A JP4106470B2 (ja) | 2006-08-17 | 2006-08-17 | 解データ編集処理装置および処理方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004168944A Division JP4187213B2 (ja) | 2004-06-07 | 2004-06-07 | 自動要約処理装置および自動要約処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006318509A true JP2006318509A (ja) | 2006-11-24 |
JP4106470B2 JP4106470B2 (ja) | 2008-06-25 |
Family
ID=37539058
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006222723A Expired - Fee Related JP4106470B2 (ja) | 2006-08-17 | 2006-08-17 | 解データ編集処理装置および処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4106470B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013167985A (ja) * | 2012-02-15 | 2013-08-29 | Nomura Research Institute Ltd | 談話要約生成システムおよび談話要約生成プログラム |
JP2015046043A (ja) * | 2013-08-28 | 2015-03-12 | 日本電信電話株式会社 | オラクル要約探索装置、方法、及びプログラム |
JP2020057195A (ja) * | 2018-10-02 | 2020-04-09 | テクマトリックス株式会社 | 要約生成サーバ、要約生成システム及び要約生成方法 |
JP2020149687A (ja) * | 2019-03-15 | 2020-09-17 | 株式会社リコー | レビューされた1つ以上の文書へのリンクを含む会議レビュー文書の生成 |
-
2006
- 2006-08-17 JP JP2006222723A patent/JP4106470B2/ja not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013167985A (ja) * | 2012-02-15 | 2013-08-29 | Nomura Research Institute Ltd | 談話要約生成システムおよび談話要約生成プログラム |
JP2015046043A (ja) * | 2013-08-28 | 2015-03-12 | 日本電信電話株式会社 | オラクル要約探索装置、方法、及びプログラム |
JP2020057195A (ja) * | 2018-10-02 | 2020-04-09 | テクマトリックス株式会社 | 要約生成サーバ、要約生成システム及び要約生成方法 |
JP2020149687A (ja) * | 2019-03-15 | 2020-09-17 | 株式会社リコー | レビューされた1つ以上の文書へのリンクを含む会議レビュー文書の生成 |
Also Published As
Publication number | Publication date |
---|---|
JP4106470B2 (ja) | 2008-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7120613B2 (en) | Solution data edit processing apparatus and method, and automatic summarization processing apparatus and method | |
Kestemont et al. | Cross-genre authorship verification using unmasking | |
CN105426360B (zh) | 一种关键词抽取方法及装置 | |
JP4622589B2 (ja) | 情報処理装置および方法、プログラム、並びに記録媒体 | |
CN111737446A (zh) | 用于构建质量评估模型的方法、装置、设备及存储介质 | |
US20090063132A1 (en) | Information Processing Apparatus, Information Processing Method, and Program | |
CN101526938A (zh) | 文档处理装置 | |
CN109508448A (zh) | 基于长篇文章生成短资讯方法、介质、装置和计算设备 | |
JP5527548B2 (ja) | 情報分析装置、情報分析方法、及びプログラム | |
JP5218409B2 (ja) | 関連情報検索システム及び関連情報検索方法 | |
JP4106470B2 (ja) | 解データ編集処理装置および処理方法 | |
JP4187213B2 (ja) | 自動要約処理装置および自動要約処理方法 | |
JP4719921B2 (ja) | データ表示装置およびデータ表示プログラム | |
JPWO2008108061A1 (ja) | 言語処理システム、言語処理方法、言語処理プログラムおよび記録媒体 | |
KR102519955B1 (ko) | 토픽 키워드의 추출 장치 및 방법 | |
JP5538268B2 (ja) | 文書要約装置、文書要約方法、及びプログラム | |
JP2009140411A (ja) | 文章要約装置および文章要約方法 | |
JP5803481B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP6181890B2 (ja) | 文献解析装置、文献解析方法およびプログラム | |
Chaudhari et al. | Comprehensive Survey of Abstractive Text Summarization Techniques | |
JP2007052693A (ja) | Webページ情報表示装置,処理方法およびプログラム | |
WO2023286340A1 (ja) | 情報処理装置および情報処理方法 | |
JP2006163645A (ja) | 情報検索方法、情報検索装置、情報検索プログラム及びコンピュータで読み取り可能な記録媒体並びに記録した機器 | |
JP5259462B2 (ja) | 検索を支援する装置、方法およびプログラム | |
JP5258819B2 (ja) | 形態素解析装置及び形態素解析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060825 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070619 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070820 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071225 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080204 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080304 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080313 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110411 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110411 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120411 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130411 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140411 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |