JP6817690B2 - 抽出装置、抽出方法とそのプログラム、及び、支援装置、表示制御装置 - Google Patents
抽出装置、抽出方法とそのプログラム、及び、支援装置、表示制御装置 Download PDFInfo
- Publication number
- JP6817690B2 JP6817690B2 JP2015068461A JP2015068461A JP6817690B2 JP 6817690 B2 JP6817690 B2 JP 6817690B2 JP 2015068461 A JP2015068461 A JP 2015068461A JP 2015068461 A JP2015068461 A JP 2015068461A JP 6817690 B2 JP6817690 B2 JP 6817690B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- gram
- word
- extraction
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
前記抽出装置から出力された前記要約文ごとにその文中で、前記教師単語集合らしいか否かに応じて表示を変化させる。
本発明の第1の実施形態である抽出装置について、図面を用いて説明する。第1の実施系形態の抽出装置10は、テキストに教師ラベルを付与する者に対して、その教師ラベルの判定を支援する支援装置の一つの機能を提供する装置である。
・「単語N-Gramよりも単語区切りが多い単語M−Gram(M>N:M、Nは2以上の自然数)の単位」
・「K文字ごと(Kは1以上の自然数)」
・「行単位(改行文字)」
・「ページ単位(改ページコード)」
・「節、段落単位」
次に、抽出装置10は、文ごとに1以上の単語を含む単語集合を生成し、生成された単語集合に対し学習モデルを用いて評価する評価値を算出する(S102)。具体的には、教師ラベルらしさを表す確信度を算出し、算出された確信度に基づいて分割された文ごとに教師ラベル判定寄与度(以下、寄与度と示す。)を算出する。なお、教師ラベル判定寄与度とは、教師ラベルの付与の際に、付与する者の判定に寄与できる程度を示す値である。
当該学習モデルは、以下のように構築される。まず、学習用の教師データとして、P/N情報(ポジディブ/ネガティブ情報)が既知であるテキストが用いられる。続いて、学習モデルを生成する学習部(図示せず)は、教師データとなるテキストの単語N−Gramを作成した後、単語N-Gramごとに単語に紐づく特徴ベクトルに置換し、学習モデルに特徴ベクトルとP/N情報(スコア)を教え込む。これにより、学習モデルがテキストからP/N情報(スコア)を判断する能力を得る。学習モデルは、例えば、サポートベクタマシン、ニューラルネットワーク、又は、ベイズ分類器のように、任意の教師あり機械学習分類器を用いて生成することができる。なお、第1の実施形態において、確信度を算出するための学習モデルは、確信度の算出前に予め準備されているものとする。学習モデルは、複数の教師単語集合を用いて、所定の単語集合が教師単語集合らしいか否かを評価可能に学習されたモデルであるとも言える。
抽出装置10による寄与度の算出の一例として、次に示すバリエーションが考えられる。
・各単語N-Gramにおける算出された確信度の分散値又は標準偏差値
・各単語N-Gramにおける算出された確信度の最大絶対値
・各単語N-Gramにおける算出された確信度のノルム値
・単語N-Gramにおける算出された確信度の平均値
ここで、算出された各確信度の総和によって生じる問題について説明する。図7は、確信度の総和によって算出される値の一例を示す図である。図7に示すように、上段は、算出された8個の単語N-Gram(N=3)ごとの確信度における、ポジティブ/ネガティブ(P/N)を表し、下段は、そのスコアを表す。図7に示す確信度に基づき、確信度を総和だけを用いて文ごとの寄与度を算出すると、総和の合計値は、0.00となる。すなわち、図6に示すように確信度としてポジティブ/ネガティブの値が極端に大きな数値であるにも関わらず、総和により、文ごとの寄与度が0.00となるため、後段の要約文の抽出において、その文が、重要な要約文として抽出できなくなる可能性がある。
本発明の第2の実施形態による支援装置について、図9を用いて説明する。図9は、第2の実施形態による支援装置の構成を示すブロック図である。支援装置1は、表示装置5、及び、記憶装置6が接続されている。
図11は、言語処理(S201)のサブルーチンの動作の示すフローチャートである。
言語処理部20は、取得した対象テキストに対して形態素解析を実施して対象テキストを単語区切りに分割する(S2011)。言語処理部20は、分割した単語、及び、単語区切りの対象テキストをそれぞれ要約文抽出部40に送る。なお、要約文抽出部40に送るのではなく、分割した単語、及び、単語区切りの対象テキストをそれぞれ記憶装置(図示せず)に一時的に保存してもよい。
“Sentiment Classification with Supervised Sequence Embedding”, Bespalov, Dmitriy and Qi, Yanjun and Bai, Bing and Shokoufandeh, Ali, Machine Learning and Knowledge Discovery in Databases, Vol.7523, pp.159-174, Springer Berlin Heidelberg, 2012, ISBN: 978-3-642-33459-7
上記の論文では、特徴ベクトルの生成を自動で処理する機構を用いている。第2の実施形態では、これに限られず、例えば、主成分分析などにより、重要なベクトル項を分析し、そのベクトル項を選択して、特徴ベクトルを生成する処理をソフトウェアプログラムに組み込んで構成してもよい。
本発明の第3の実施形態による支援装置および記憶装置について、図15を用いて説明する。図15は、第3の実施形態による支援装置1及び記憶装置7の構成を示すブロック図である。図15に示すように、第3の実施形態の記憶装置7は、第2の実施形態の記憶装置6と比較して、付加情報記憶部65が追加されている点で相違する。
本発明の第4の実施形態である表示制御装置について、図面を用いて説明する。図16は、第4の実施形態による表示制御装置110の構成を示すブロック図である。第5の実施系形態の表示制御装置110は、テキストに教師ラベルを付与する者に対して、その教師ラベルの判定を支援するための表示制御装置である。
図18は、本発明の第1の実施形態による抽出装置10、第2、3の実施形態による支援装置1、又は第4の実施形態による表示制御装置110をコンピュータ装置で実現したハードウエア構成を示す図である。
教師ラベルを付与するテキストである対象テキストに対し前記対象テキストを構成する単語で区切った単語区切りの対象テキストを文単位に分割し、前記分割された文ごとにN個の単語をつなげた単語N-Gram(Nは2以上の自然数)を生成し、前記生成された単語N-Gramに対し学習モデルを用いて教師ラベルらしさを表す確信度を算出し、前記算出された確信度に基づいて前記分割された文ごとに教師ラベル判定寄与度を算出し、前記寄与度に応じて要約文を抽出する要約文抽出部を備える抽出装置。
前記要約文抽出部は、
前記単語N-Gramよりも単語区切りが多い単語M−Gram(M>N:M、Nは2以上の自然数)の単位、K文字ごと(Kは1以上の自然数)、行単位(改行文字)、ページ単位(改ページコード)、約物単位、又は、節・段落単位により、前記単語区切りの対象テキストを文単位に分割する、
付記1に記載の抽出装置。
前記学習モデルは、
スコア情報が既知の教師データであるテキストを用いた単語N−Gramが作成され、前記作成された単語N-Gramごとに単語に紐づく特徴ベクトルに置換され、前記特徴ベクトルと対応する前記スコア情報とにより任意の教師あり機械学習分類器に学習させたモデルである、
付記1又は付記2に記載の抽出装置。
前記学習モデルは、任意の教師あり機械学習分類器であり、サポートベクタマシン、ニューラルネットワーク、又は、ベイズ分類器のいずれかである、
付記1から3のいずれか1つに記載の抽出装置。
前記寄与度の算出は、各単語N-Gramにおける算出された確信度の分散値又は標準偏差値、各単語N-Gramにおける算出された確信度の最大絶対値、又は、各単語N-Gramにおける算出された確信度のノルム値のいずれかを用いる、
付記1から4のいずれか1つに記載の抽出装置。
前記要約文は、前記算出された寄与度が、所定の閾値以上である文、あるいは、前記算出された寄与度を降順に整列したうちの上位数十パーセントとなる文、を抽出する、
付記1から5のいずれか1つに記載の抽出装置。
前記抽出装置を含む、
付記1〜付記6のいずれか1つに記載の支援装置。
言語処理部を備え、
前記言語処理部は、前記単語区切りの対象テキストを生成する、
付記7に記載の支援装置。
学習部を備え、
前記学習部は、スコア情報が既知の教師データであるテキストを用いた単語N−Gramを作成し、前記作成された単語N-Gramごとに単語に紐づく特徴ベクトルに置換し、前記特徴ベクトルと対応する前記スコア情報とにより任意の教師あり機械学習分類器に学習させる、
付記7又は付記8に記載の支援装置。
教師ラベル受付部を備え、
前記教師ラベル受付部は、前記対象テキストに対して、前記支援装置の利用者によって判定された教師ラベルを受付ける、
付記7〜付記9のいずれか1つに記載の支援装置。
前記支援装置に記憶装置が接続され、
前記記憶装置は、単語記憶部、テキスト記憶部、学習モデル記憶部、及び、パラメータ記憶部を有する、
付記7〜付記10のいずれか1つに記載の支援装置。
前記記憶装置は、付加情報記憶部を有する、
付記11に記載の支援装置。
前記記憶装置を備える、
付記11又は付記12に記載の支援装置。
前記支援装置に表示装置が接続され、
前記表示装置は、
付記7〜付記13のいずれか1つに記載の支援装置。
前記表示装置を備える、
付記7〜付記14のいずれか1つに記載の支援装置。
教師ラベルを付与するテキストである対象テキストに対し前記対象テキストを構成する単語で区切った単語区切りの対象テキストを文単位に分割し、
前記分割された文ごとにN個の単語をつなげた単語N-Gram(Nは2以上の自然数)を生成し、
前記生成された単語N-Gramに対し学習モデルを用いて教師ラベルらしさを表す確信度を算出し、
前記算出された確信度に基づいて前記分割された文ごとに教師ラベル判定寄与度を算出し、前記寄与度に応じて要約文を抽出する、
抽出方法。
コンピュータに、
教師ラベルを付与するテキストである対象テキストに対し前記対象テキストを構成する単語で区切った単語区切りの対象テキストを文単位に分割し、
前記分割された文ごとにN個の単語をつなげた単語N-Gram(Nは2以上の自然数)を生成し、
前記生成された単語N-Gramに対し学習モデルを用いて教師ラベルらしさを表す確信度を算出し、
前記算出された確信度に基づいて前記分割された文ごとに教師ラベル判定寄与度を算出し、前記寄与度に応じて要約文を抽出する、
ことを実行させるための抽出プログラム。
5 表示装置
6 記憶装置
7 記憶装置
10 抽出装置
20 言語処理部
30 学習部
40 要約文抽出部
50 教師ラベル受付部
61 単語記憶部
62 テキスト記憶部
63 学習モデル記憶部
64 パラメータ記憶部
65 付加情報記憶部
91 CPU
92 通信I/F(通信インターフェース)
93 メモリ
94 記憶装置
95 入力装置
96 出力装置
97 システムバス
110 表示制御装置
140 表示制御部
Claims (10)
- 複数の文を含むテキストから前記文を抽出し、前記文ごとにN個(Nは2以上の自然数)の単語をつなげたN−Gramを生成し、前記N−Gramに対し学習モデルを用いて評価する評価値を算出し、前記評価値に基づいて前記文から要約文を抽出する要約文抽出部を備える抽出装置。
- 前記学習モデルは、複数の教師単語集合を用いて、所定の単語集合が前記教師単語集合らしいか否かを評価可能に学習されたモデルである、請求項1記載の抽出装置。
- 前記要約文抽出部は、前記評価値に基づいて前記文ごとに教師ラベル判定寄与度を算出し、前記教師ラベル判定寄与度に応じて要約文を抽出する、請求項1又は2に記載の抽出装置。
- 前記教師ラベル判定寄与度の算出は、前記評価値の分散値又は標準偏差値、前記評価値の最大絶対値、又は、前記評価値のノルム値のいずれかを用いる、
請求項3に記載の抽出装置。 - 複数の文を含むテキストから前記文を抽出し、前記文ごとにN個(Nは2以上の自然数)の単語をつなげたN−Gramを生成し、前記N−Gramに対し学習モデルを用いて評価する評価値を算出し、前記評価値に基づいて前記文から要約文を抽出する抽出方法。
- 複数の文を含むテキストから前記文を抽出し、前記文ごとにN個(Nは2以上の自然数)の単語をつなげたN−Gramを生成し、前記N−Gramに対し学習モデルを用いて評価する評価値を算出し、前記評価値に基づいて前記文から要約文を抽出することをコンピュータに実行させる抽出プログラム。
- 請求項1から4のいずれか1に記載の抽出装置と、を備え、前記抽出装置から出力された前記要約文ごとにその文中で教師単語集合らしいか否かに応じて表示を変化させる支援装置。
- 複数の文を含むテキストから抽出された前記文ごとに、学習モデルを用いて算出された、前記文から生成されたN個(Nは2以上の自然数)の単語をつなげたN−Gramに対する評価値に基づいて、前記文から要約文を抽出し、前記要約文を前記評価値に基づいた順序で表示制御する表示制御部を備える表示制御装置。
- 複数の文を含むテキストから抽出された前記文ごとに、学習モデルを用いて算出された、前記文から生成されたN個(Nは2以上の自然数)の単語をつなげたN−Gramに対する評価値に基づいて、前記文から要約文を抽出し、前記要約文を前記評価値に基づいた順序で表示制御する表示制御方法。
- 複数の文を含むテキストから抽出された前記文ごとに、学習モデルを用いて算出された、前記文から生成されたN個(Nは2以上の自然数)の単語をつなげたN−Gramに対する評価値に基づいて、前記文ごとに教師ラベル判定寄与度を算出し、前記教師ラベル判定寄与度に応じて要約文を抽出し、前記要約文を前記教師ラベル判定寄与度に基づいた順序で表示制御する表示制御方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015068461A JP6817690B2 (ja) | 2015-03-30 | 2015-03-30 | 抽出装置、抽出方法とそのプログラム、及び、支援装置、表示制御装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015068461A JP6817690B2 (ja) | 2015-03-30 | 2015-03-30 | 抽出装置、抽出方法とそのプログラム、及び、支援装置、表示制御装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016189089A JP2016189089A (ja) | 2016-11-04 |
JP6817690B2 true JP6817690B2 (ja) | 2021-01-20 |
Family
ID=57239676
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015068461A Active JP6817690B2 (ja) | 2015-03-30 | 2015-03-30 | 抽出装置、抽出方法とそのプログラム、及び、支援装置、表示制御装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6817690B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7099254B2 (ja) * | 2018-10-31 | 2022-07-12 | 富士通株式会社 | 学習方法、学習プログラム及び学習装置 |
CN112784585A (zh) * | 2021-02-07 | 2021-05-11 | 新华智云科技有限公司 | 金融公告的摘要提取方法与摘要提取终端 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3718044B2 (ja) * | 1998-02-02 | 2005-11-16 | 富士通株式会社 | 文書閲覧装置およびそのプログラムを格納した記憶媒体 |
JP4257042B2 (ja) * | 2001-03-29 | 2009-04-22 | 株式会社リコー | 重要文抽出装置および方法並びに重要文抽出用プログラム |
JP2003036262A (ja) * | 2001-07-23 | 2003-02-07 | Nippon Telegr & Teleph Corp <Ntt> | 重要文抽出方法、装置、プログラム、および同プログラムを記録した記録媒体 |
-
2015
- 2015-03-30 JP JP2015068461A patent/JP6817690B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016189089A (ja) | 2016-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6799800B2 (ja) | 意味情報生成方法、意味情報生成装置、およびプログラム | |
CN112560912B (zh) | 分类模型的训练方法、装置、电子设备和存储介质 | |
US20190354810A1 (en) | Active learning to reduce noise in labels | |
US11645314B2 (en) | Interactive information retrieval using knowledge graphs | |
KR102542914B1 (ko) | 다중언어 번역 장치 및 다중언어 번역 방법 | |
CN109416705A (zh) | 利用语料库中可用的信息用于数据解析和预测 | |
JP6231944B2 (ja) | 学習モデル作成装置、判定システムおよび学習モデル作成方法 | |
CN111666766B (zh) | 数据处理方法、装置和设备 | |
CN110427627A (zh) | 基于语义表示模型的任务处理方法和装置 | |
CN110704576A (zh) | 一种基于文本的实体关系抽取方法及装置 | |
JP7062056B2 (ja) | 作成文章評価装置 | |
CN112749547A (zh) | 文本分类器训练数据的产生 | |
US11507746B2 (en) | Method and apparatus for generating context information | |
CN111753082A (zh) | 基于评论数据的文本分类方法及装置、设备和介质 | |
JP2020035019A (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP7155625B2 (ja) | 検査装置、検査方法、プログラム及び学習装置 | |
JPWO2014073206A1 (ja) | 情報処理装置、及び、情報処理方法 | |
US12008692B2 (en) | Systems and methods for digital ink generation and editing | |
CN108595717A (zh) | 用于文本分类的数据处理方法、数据处理装置和电子设备 | |
CN109408175B (zh) | 通用高性能深度学习计算引擎中的实时交互方法及系统 | |
JP6817690B2 (ja) | 抽出装置、抽出方法とそのプログラム、及び、支援装置、表示制御装置 | |
JP2018112853A (ja) | 話題分類装置およびそのプログラム | |
JP6605997B2 (ja) | 学習装置、学習方法及びプログラム | |
CN115357720B (zh) | 基于bert的多任务新闻分类方法及装置 | |
JP2007241881A (ja) | 意見性判定データベース作成方法及び装置及びプログラム及び意見性判定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180215 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181217 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190129 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190329 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20190903 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191114 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20191114 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20191122 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20191126 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20200124 |
|
C211 | Notice of termination of reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C211 Effective date: 20200128 |
|
C22 | Notice of designation (change) of administrative judge |
Free format text: JAPANESE INTERMEDIATE CODE: C22 Effective date: 20200811 |
|
C22 | Notice of designation (change) of administrative judge |
Free format text: JAPANESE INTERMEDIATE CODE: C22 Effective date: 20201006 |
|
C23 | Notice of termination of proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C23 Effective date: 20201104 |
|
C03 | Trial/appeal decision taken |
Free format text: JAPANESE INTERMEDIATE CODE: C03 Effective date: 20201208 |
|
C30A | Notification sent |
Free format text: JAPANESE INTERMEDIATE CODE: C3012 Effective date: 20201208 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201225 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6817690 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |