JP2024008334A - 情報処理装置、情報処理方法およびプログラム - Google Patents
情報処理装置、情報処理方法およびプログラム Download PDFInfo
- Publication number
- JP2024008334A JP2024008334A JP2022110120A JP2022110120A JP2024008334A JP 2024008334 A JP2024008334 A JP 2024008334A JP 2022110120 A JP2022110120 A JP 2022110120A JP 2022110120 A JP2022110120 A JP 2022110120A JP 2024008334 A JP2024008334 A JP 2024008334A
- Authority
- JP
- Japan
- Prior art keywords
- information
- document data
- feature amount
- feature
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 58
- 238000003672 processing method Methods 0.000 title claims description 4
- 238000004364 calculation method Methods 0.000 claims abstract description 78
- 238000000605 extraction Methods 0.000 claims abstract description 68
- 238000004458 analytical method Methods 0.000 claims abstract description 67
- 239000000284 extract Substances 0.000 claims abstract description 41
- 238000000034 method Methods 0.000 claims description 37
- 230000014509 gene expression Effects 0.000 claims description 6
- 239000013598 vector Substances 0.000 description 22
- 238000010586 diagram Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 241000711573 Coronaviridae Species 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
【課題】文書をより高精度に解析する。【解決手段】情報処理装置は、選択部、第1抽出部、第2抽出部、第1特徴量算出部、第2特徴量算出部および解析部を備える。選択部は、文書データから1つ以上の部分文書データを選択する。第1抽出部は、部分文書データから、部分文書データの第1属性を特定するための語または句である第1情報を抽出する。第2抽出部は、部分文書データから、部分文書データの第2属性を特定するための語または句である第2情報を抽出する。第1特徴量算出部は、第1情報の特徴を表す第1特徴量を算出する。第2特徴量算出部は、第2情報の特徴を表す第2特徴量を算出する。解析部は、第1特徴量および第2特徴量に基づいて、文書データを解析する。【選択図】図1
Description
本発明の実施形態は、情報処理装置、情報処理方法およびプログラムに関する。
重要フレーズの抽出、または、要約文を生成する際に文書の話題に関する情報の抽出を行い、抽出結果に基づいて文書を解析する技術がある。
例えば、着目文書から着目文書話題語を抽出し、参照用文書から背景話題語を抽出し、着目文書話題語と背景話題語の両方を含むフレーズを着目文書から抽出して要約文に使用する技術が提案されている。
しかしながら、従来技術では、文書を高精度に解析できない場合があった。本発明は、文書をより高精度に解析できる情報処理装置、情報処理装置、情報処理方法およびプログラムを提供することを目的とする。
実施形態の情報処理装置は、選択部、第1抽出部、第2抽出部、第1特徴量算出部、第2特徴量算出部および解析部を備える。選択部は、文書データから1つ以上の部分文書データを選択する。第1抽出部は、部分文書データから、部分文書データの第1属性を特定するための語または句である第1情報を抽出する。第2抽出部は、部分文書データから、部分文書データの第2属性を特定するための語または句である第2情報を抽出する。第1特徴量算出部は、第1情報の特徴を表す第1特徴量を算出する。第2特徴量算出部は、第2情報の特徴を表す第2特徴量を算出する。解析部は、第1特徴量および第2特徴量に基づいて、文書データを解析する。
以下に添付図面を参照して、この発明にかかる情報処理装置の好適な実施形態を詳細に説明する。
上記のように、従来技術では、文書を高精度に解析できない場合があった。例えば、トピック(話題)に基づく解析では、新規なトピックを持つ文書に対応できない。
一方、文書では重要な情報を提示する際に用いられる独特の言い回し(決まり文句)が存在する。このような言い回しなどを表す情報(形式情報)をもとに解析を行うことで、トピックのみによる解析よりも精度を向上させることが期待できる。
上記の要約文生成を行う技術では、着目文書話題語のみでなく背景話題語も用いるが、背景話題語を抽出するために別の文書(参照用文書)が必要となる。トピックを示す情報(トピック情報)と形式情報とを併用する場合、このような別の文書の入力を不要とすることが望ましい。
(第1の実施形態)
第1の実施形態にかかる情報処理装置は、同じ文書データから複数の属性を特定するための語または句である複数の情報を抽出し、複数の情報の特徴を表す複数の特徴量を算出する。そして本実施形態の情報処理装置は、複数の特徴量を用いて文書データを解析する。これにより、文書をより高精度に解析可能となる。
第1の実施形態にかかる情報処理装置は、同じ文書データから複数の属性を特定するための語または句である複数の情報を抽出し、複数の情報の特徴を表す複数の特徴量を算出する。そして本実施形態の情報処理装置は、複数の特徴量を用いて文書データを解析する。これにより、文書をより高精度に解析可能となる。
本実施形態では、複数の属性として、部分文書データのトピックであることを示す属性(第1属性)と、他の部分文書データと共通に用いられる表現であることを示す属性(第2属性)と、を用いる例を説明する。なお複数の属性はこれらに限られない。
また部分文書データは、解析の対象となる文書データに含まれるデータであり、例えば、1つの文、複数の文(例えば段落)、および、文より小さい単位の語または句(例えば、読点で区切られた語または句)であるが、これらに限られない。以下では、主に文を部分文書データとする場合を例に説明する。
図1は、第1の実施形態にかかる情報処理装置100の構成の一例を示すブロック図である。図1に示すように、情報処理装置100は、受付部101と、選択部102と、トピック抽出部103(第1抽出部の一例)と、形式抽出部104(第2抽出部の一例)と、トピック特徴量算出部105(第1特徴量算出部の一例)と、形式特徴量算出部106(第2特徴量算出部の一例)と、統合特徴量算出部107と、解析部108と、出力制御部109と、記憶部121と、ディスプレイ122と、を備えている。
受付部101は、情報処理装置100で用いられる各種情報の入力を受け付ける。例えば受付部101は、解析対象となる文書データの入力を受け付ける。文書データは、どのような方法で作成されてもよい。例えば文書データは、新聞記事、論文、ウェブサイト上の文書、および、SNS(Social Networking Service)上の文書などの人が記述した文書のデータでもよいし、会議および講演などの音声を音声認識または書き起こしによって文書化したデータであってもよい。文書データは、1つ以上の文(部分文書データの一例)を含む。
選択部102は、文書データから1つ以上の文(部分文書データ)を選択する。選択方法はどのような方法であってもよいが、例えば、文書データに含まれるすべての文を選択する方法、および、不要な文以外の文を選択する方法を適用できる。
トピック抽出部103は、選択された文それぞれから、文のトピック(第1属性の一例)を特定するための語または句である情報(第1情報)を抽出する。以下、トピック抽出部103により抽出された情報をトピック情報という。
形式抽出部104は、選択された文それぞれから、他の文と共通に用いられる表現(第2属性の一例)を特定するための語または句である情報(第2情報)を抽出する。この情報は、例えば、言い回しなどの文書の形式を表す情報(形式情報)に相当する。以下、形式抽出部104により抽出された情報を形式情報という。
トピック情報および形式情報の抽出方法としては、以下のような複数の例のうちいずれかが採用されうる。
(抽出方法E1)予め作成した形式情報辞書(辞書情報の一例)に含まれる情報を形式情報として抽出し、形式情報辞書に含まれない情報をトピック情報として抽出する。
形式情報辞書は、例えば、以下のように作成される。まず、予め用意された大量の文書に含まれる各単語について、その単語が含まれる文書数をカウントし、以下の式でIDF(Inverse Document Frequency)を算出する。
IDF=(全文書数)/(単語が含まれる文書数)
IDF=(全文書数)/(単語が含まれる文書数)
IDFが小さいほど様々な文書に含まれる一般的な単語であるということになる。このため、IDFが閾値より小さい単語を形式情報として集めて形式情報辞書が作成される。
形式抽出部104は、このようにして作成された形式情報辞書を参照し、選択された文に含まれる単語のうち、形式情報辞書に含まれる単語を形式情報として抽出する。トピック抽出部103は、選択された文に含まれる単語のうち、形式情報辞書に含まれない単語をトピック情報として抽出する。
以下に、形式情報およびトピック情報の抽出例を示す。
(例1)
・選択された文:「それでは今日はリモートワーク下でのコミュニケーションについて学習しましょう」
・形式情報:「それでは今日は__下での__について学習しましょう」
・トピック情報:「リモートワーク,コミュニケーション」
(例2)
・選択された文:「電話会議では表情や手振りなどのノンバーバルなチャンネルを使用することができません」
・形式情報:「__では__や__などの__な__を使用することができません」
・トピック情報:「電話会議,表情,手振り,ノンバーバル,チャンネル」
(例1)
・選択された文:「それでは今日はリモートワーク下でのコミュニケーションについて学習しましょう」
・形式情報:「それでは今日は__下での__について学習しましょう」
・トピック情報:「リモートワーク,コミュニケーション」
(例2)
・選択された文:「電話会議では表情や手振りなどのノンバーバルなチャンネルを使用することができません」
・形式情報:「__では__や__などの__な__を使用することができません」
・トピック情報:「電話会議,表情,手振り,ノンバーバル,チャンネル」
なお、形式情報辞書は、文書データのトピックに関係しない単語の辞書である。このため、形式情報辞書の作成に使用した文書データとは別の文書データに対しても適用可能である。
形式情報辞書の作成方法は上記の例に限られない。IDFとは異なる情報を用いて一般的な単語を収集して形式情報辞書が作成されてもよい。このような情報としては、例えば、word2vecが挙げられる。例えば、各単語について予めword2vecのモデルが学習される。word2vecのベクトルの大きさが小さいほど一般的な単語であると解釈することができる。すなわち、ベクトルの大きさが閾値より小さい単語を集めることにより、形式情報辞書を作成することができる。
抽出方法E1は、文書データ内での頻度を表すスコアと閾値との比較結果に応じて、トピック情報と形式情報とを抽出する方法と解釈することができる。すなわち、トピック抽出部103は、文書データ内での頻度を表すスコアが閾値より小さい語または句をトピック情報として抽出する。形式抽出部104は、文書データ内での頻度を表すスコアが閾値以上である語または句を形式情報として抽出する。頻度を表すスコアは、例えばIDFのベクトルまたはword2vecのベクトルの大きさ(ベクトルの各単語に対応する要素の大きさ)である。
(抽出方法E2)予め作成したトピック情報辞書(辞書情報の一例)に含まれる情報をトピック情報として抽出し、トピック情報辞書に含まれない情報を形式情報として抽出する。
トピック情報辞書は、例えば、以下のように作成される。まず、予め用意された解析対象に関する文書から、IDFまたはword2vecによって一般性の高い単語が収集される。収集した一般性の高い単語以外の単語をトピック情報として集めてトピック情報辞書が作成される。
形式抽出部104は、このようにして作成されたトピック情報辞書を参照し、選択された文に含まれる単語のうち、トピック情報辞書に含まれない単語を形式情報として抽出する。トピック抽出部103は、選択された文に含まれる単語のうち、トピック情報辞書に含まれる単語をトピック情報として抽出する。
(抽出方法E3)トピックを表すことの確からしさを表す確信度(第1確信度)を対応づけたトピック情報、および、他の文と共通に用いられる表現を表すことの確からしさを表す確信度(第2確信度)を対応づけた形式情報を抽出する。
トピック抽出部103は、例えばIDFまたはword2vecの大きさをトピック情報の確信度(第1確信度)とし、選択された文に含まれる各単語を、確信度とともにトピック情報として抽出する。
形式抽出部104は、例えばIDFまたはword2vecの大きさの逆数、あるいは、IDFまたはword2vecの大きさにマイナス1を乗算した値を、形式情報の確信度(第2確信度)とし、選択された文に含まれる各単語を、確信度とともに形式情報として抽出する。
抽出方法E3では、選択された文に含まれるすべての単語がトピック情報および形式情報の両方に含まれることになる。抽出方法E3が採用される場合、トピック特徴量算出部105および形式特徴量算出部106は、確信度に応じた特徴量を算出するように構成される。
トピック特徴量算出部105は、トピック情報の特徴を表す特徴量(第1特徴量)を算出する。以下、トピック特徴量算出部105により算出された特徴量を、トピック特徴量という。
例えばトピック特徴量算出部105は、トピック情報に含まれる各単語の頻度をカウントし、文に含まれる各単語の頻度を列挙したベクトルを、トピック特徴量として算出する。上記(例1)および(例2)に示すように、トピック情報が単語列になる場合、単語列に含まれる各単語の頻度を列挙したベクトルが、トピック特徴量として算出される。
トピック特徴量の算出方法はこれに限られない。トピック特徴量算出部105は、単語または文をベクトルに変換するモデルを用いて、各単語をベクトルに変換し、このベクトルをトピック特徴量としてもよい。このようなモデルとしては、例えば、word2vec、および、BERT(Bidirectional Encoder Representations from Transformers)が挙げられる。
確信度(第1確信度)が対応づけられたトピック情報が抽出される構成の場合、トピック特徴量算出部105は、確信度を考慮してトピック特徴量を算出する。例えば、トピック特徴量算出部105は、上記の手法により算出したトピックの特徴を表すベクトルの各要素に対して、各要素に対応する単語に対応づけられた確信度をそれぞれ乗じ、トピック特徴量とする。トピック特徴量算出部105は、文ごとに、当該文に含まれる各単語に対応づけられた確信度の平均値を求め、求めた平均値を特徴量に乗じてもよい。
形式特徴量算出部106は、形式情報の特徴を表す特徴量(第2特徴量)を算出する。以下、形式特徴量算出部106により算出された特徴量を、形式特徴量という。
例えば形式特徴量算出部106は、word2vecおよびBERTなどのモデルを用いて、形式情報をベクトルに変換し、このベクトルを形式特徴量とする。
確信度(第2確信度)が対応づけられた形式情報が抽出される構成の場合、形式特徴量算出部106は、確信度を考慮して形式特徴量を算出する。確信度を考慮した特徴量の算出方法は、トピック情報を形式情報に置き換える以外は、確信度を考慮したトピック特徴量の算出方法と同様である。
統合特徴量算出部107は、トピック特徴量および形式特徴量に基づいて、文の特徴を表す統合特徴量を算出する。例えば統合特徴量算出部107は、トピック特徴量と形式特徴量との重みづけ加算、または、トピック特徴量と形式特徴量との乗算により、統合特徴量を算出する。トピック特徴量に対する重み、および、形式特徴量に対する重みは、予め決められた固定値が用いられてもよいし、機械学習のモデルによって学習された値が用いられてもよい。
統合特徴量の算出方法は上記に限られない。例えば統合特徴量算出部107は、複数の特徴量を入力し、統合特徴量を出力するように学習されたニューラルネットワークモデルなどの機械学習モデルを用いて、統合特徴量を算出してもよい。
解析部108は、トピック特徴量および形式特徴量に基づいて、文書データを解析する。例えば解析部は、1つ以上の文それぞれについて、トピック特徴量および形式特徴量に基づいて算出された1つ以上の統合特徴量を用いて、文書データを解析する。統合特徴量を用いた解析方法は、どのような方法であってもよいが、例えば、以下のような解析方法を適用できる。
(解析方法A1)文書データを管理および検索しやすくするために文書データにキーワードを付与する。キーワードは、例えば、トピック情報として抽出された単語列の中で、頻度の高い順に予め定められた個数の単語として抽出される。解析部108は、単語ごとの統合特徴量を入力して、各単語がキーワードであるか否かを示す情報を出力するニューラルネットワークモデルなどのモデルを用いて、キーワード、または、キーワードを含む文を求めてもよい。
(解析方法A2)統合特徴量を用いて、文書データに含まれる1つ以上の文それぞれに対してラベルを付与する。例えば予め複数のラベルを用意しておき、解析部108は、文に対して、複数のラベルのいずれか付与してもよい。例えば論文記事であれば、序論、先行研究、提案手法、実験結果、および、まとめ、のような複数のセクションに分かれていることが多い。解析部108は、各文がいずれのセクションを表すのかをラベルとして付与することが可能である。また、解析部108は、文の内容に応じて、質問、回答、および、提案などの文の種類を表すラベルを付与することが可能である。ラベルの付与方法はどのような方法であってもよいが、例えば解析部108は、文ごとの統合特徴量を入力し、ラベルを出力するニューラルネットワークモデルなどのモデルを用いて、文それぞれにラベルを付与する。
(解析方法A3)統合特徴量を用いて、文書データの要約文を生成する。要約文は一文のみではなく、複数文生成することも可能である。要約文の生成方法はどのような方法であってもよいが、例えば解析部108は、文ごとの統合特徴量を入力し、要約文を出力するニューラルネットワークモデルなどのモデルを用いて、要約文を生成する。
解析部108は、統合特徴量を用いずに文書データを解析してもよい。例えば、解析部108は、トピック特徴量を用いて文書データを解析した解析結果(第1解析結果)と、形式特徴量を用いて文書データを解析した解析結果(第2解析結果)と、を比較し、両者が一致しない場合、予め定められた規則に従い、両者のうち一方を出力してもよい。両者が一致する場合、解析部108は、一致する解析結果を出力する。規則はどのような規則であってもよいが、例えば、解析結果の信頼度が大きい方を優先して出力することを示す規則である。統合特徴量を用いない場合、統合特徴量算出部107は備えられなくてもよい。
出力制御部109は、情報処理装置100で用いられる各種情報の出力を制御する。例えば出力制御部109は、解析部108による解析結果を示す情報をディスプレイ122に出力する。出力方法はディスプレイ122に表示する方法に限られず、例えば、他の装置にネットワーク等を介して送信する方法などの、他のどのような方法であってもよい。
記憶部121は、情報処理装置100で用いられる各種情報を記憶する。例えば記憶部121は、受け付けられた文書データ、文書データから選択された1つ以上の文、文から抽出されたトピック情報および形式情報、並びに、算出された特徴量(トピック特徴量、形式特徴量、統合特徴量)などを記憶する。
記憶部121は、フラッシュメモリ、メモリカード、RAM(Random Access Memory)、HDD(Hard Disk Drive)、および、光ディスクなどの一般的に利用されているあらゆる記憶媒体により構成することができる。
ディスプレイ122は、出力制御部109の制御に従い各種情報を表示する表示装置である。ディスプレイ122は、例えばタッチパネル、および、液晶ディスプレイなどにより実現できる。
上記各部(受付部101、選択部102、トピック抽出部103、形式抽出部104、トピック特徴量算出部105、形式特徴量算出部106、統合特徴量算出部107、解析部108、および、出力制御部109)は、例えば、1または複数のプロセッサにより実現される。例えば上記各部は、CPU(Central Processing Unit)などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のIC(Integrated Circuit)などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち1つを実現してもよいし、各部のうち2つ以上を実現してもよい。
次に、第1の実施形態にかかる情報処理装置100による文書データの解析処理について説明する。図2は、第1の実施形態における解析処理の一例を示すフローチャートである。
受付部101は、文書データの入力を受け付ける(ステップS101)。選択部102は、入力された文書データから1つ以上の文を選択する(ステップS102)。
以下のステップS103からステップS107は、選択された文ごとに実行される。まず、形式抽出部104は、選択された文それぞれから、形式情報を抽出する(ステップS103)。トピック抽出部103は、選択された文それぞれから、トピック情報を抽出する(ステップS104)。
形式特徴量算出部106は、形式情報から形式特徴量を算出する(ステップS105))。トピック特徴量算出部105は、トピック情報からトピック特徴量を算出する(ステップS106)。統合特徴量算出部107は、形式特徴量とトピック特徴量とを統合した統合特徴量を算出する(ステップS107)。
解析部108は、統合特徴量による文書データの解析を実行する(ステップS108)。出力制御部109は、解析部108による解析結果をディスプレイ122などに出力し(ステップS109)、解析処理を終了する。
図3は、出力制御部109により出力される表示画面の例を示す図である。図3では、「コロナ禍における新しいコミュニケーションについて」というタイトルが付された文書データ301を解析して得られる表示画面310の例が示されている。
表示画面310では、要約文、および、文書データから抽出されたキーワードが、解析結果として表示されている。キーワードを表示することで、要約文を読まなくても文書データの概要を把握することが可能となる。
このように、第1の実施形態では、同じ文書データから複数の属性を特定するための複数の情報が抽出され、複数の情報の特徴を表す複数の特徴量を用いて文書データが解析される。これにより、文書をより高精度に解析可能となる。また、複数の情報は同じ文書データから抽出されるため、例えば上記の背景話題語を用いて要約文生成を行う技術のように複数の文書を用いる必要がない。
(第2の実施形態)
第2の実施形態にかかる情報処理装置は、トピック特徴量の算出方法が、第1の実施形態と異なる。具体的には、本実施形態では、文書データのトピックを表す情報の特徴に対する、各文のトピック情報の特徴の類似度が、トピック特徴量として算出される。
第2の実施形態にかかる情報処理装置は、トピック特徴量の算出方法が、第1の実施形態と異なる。具体的には、本実施形態では、文書データのトピックを表す情報の特徴に対する、各文のトピック情報の特徴の類似度が、トピック特徴量として算出される。
図4は、第2の実施形態にかかる情報処理装置100-2の構成の一例を示すブロック図である。図4に示すように、情報処理装置100-2は、受付部101-2と、選択部102と、トピック抽出部103-2と、形式抽出部104と、トピック特徴量算出部105-2と、形式特徴量算出部106と、統合特徴量算出部107と、解析部108と、出力制御部109と、記憶部121と、ディスプレイ122と、を備えている。
第2の実施形態では、受付部101-2、トピック抽出部103-2、および、トピック特徴量算出部105-2の機能が、第1の実施形態と異なっている。その他の構成および機能は、第1の実施形態にかかる情報処理装置100のブロック図である図1と同様であるので、同一符号を付し、ここでの説明は省略する。
受付部101-2は、受け付けた文書データをトピック抽出部103-2にも出力する点が、第1の実施形態の受付部101と異なっている。
トピック抽出部103-2は、さらに、文書データから、文書データのトピックであることを示す属性を特定するための語または句である文書トピック情報(文書データ情報の一例)を抽出する。
トピック特徴量算出部105-2は、文書トピック情報の特徴に対する、トピック情報の特徴の類似度を、トピック特徴量として算出する。
類似度はどのように算出されてもよいが、例えば、2種類の特徴量はベクトルで表されるため、トピック特徴量算出部105-2は、ベクトル間のノルムを類似度として算出する。例えばトピック特徴量算出部105-2は、文書トピック情報の特徴を表すベクトルと、トピック情報の特徴を表すベクトルと、のL2ノルムを算出する。L2ノルムが大きいほど類似度が低いため、トピック特徴量算出部105-2は、L2ノルムにマイナス1を乗算した値、または、L2ノルムの逆数(1/L2ノルム)を類似度とする。
トピック特徴量算出部105-2は、ベクトル間のコサイン類似度を類似度として算出してもよい。
なお、本実施形態では、解析部108は、トピック情報として抽出された単語列の中で、文書トピック情報との類似度が大きい順に予め定められた個数の単語をキーワードと抽出してもよい。また、出力制御部109は、類似度が大きい順に予め定められた個数の文、または、類似度が閾値以上である文を出力するように構成されてもよい。
次に、第2の実施形態にかかる情報処理装置100-2による解析処理について図5を用いて説明する。図5は、第2の実施形態における解析処理の一例を示すフローチャートである。
第2の実施形態では、ステップS204およびステップS206が、第1の実施形態の解析処理(図2)におけるステップS104およびステップS106と異なっている。その他のステップS201~ステップS203、ステップS205、ステップS207~ステップS209は、ステップS101~ステップS103、ステップS105、ステップS107~ステップS109と同様の処理なので、その説明を省略する。
ステップS204では、トピック抽出部103-2は、選択された文それぞれからトピック情報を抽出するとともに、文書データ全体から文書トピック情報を抽出する(ステップS204)。
ステップS206では、トピック特徴量算出部105-2は、文書トピック情報に対するトピック情報の類似度であるトピック特徴量を算出する(ステップS206)。
このように、本実施形態では、トピック情報の特徴を表す情報(第1の実施形態でのトピック特徴量)をそのまま使用せず、文書データのトピックを示す文書トピック情報に対する類似度を、各文のトピック特徴量として使用する。これにより、各文の内容そのものの特徴が加味されないように構成できる。
ある文が重要な文であるか否かは、その文のトピックには依存しない。例えばトピックがスポーツである文と、トピックが映画である文とが存在する場合、トピックの種類によっていずれの文が重要であるかが決定されるわけではない。文書データ全体のトピックがスポーツであった場合、ある文がスポーツのトピックを含んでいれば、その文は文書データ全体のトピックと関連性が高いと思われるので重要であると考えられる。一方、ある文が映画のトピックを含んでいれば、その文のトピックは文書データ全体のトピックとは異なるので重要ではないと考えられる。このように文書データ全体と関連性(類似度)が高いか否かが重要であり、トピックそのものは重要ではない。
そこで本実施形態では、各文と文書データ全体とのトピックの類似度をトピック特徴量として使用する。これにより、トピックそのものの特徴を除外し、文書データ全体に対する類似性のみを考慮して解析することで、文書データのトピックに依存しない解析を行うことができる。
(第3の実施形態)
第3の実施形態にかかる情報処理装置は、上記実施形態と異なる属性をさらに用いる例を説明する。具体的には本実施形態では、複数の属性として、部分文書データのトピックであることを示す属性(第1属性)と、他の部分文書データと共通に用いられる表現であることを示す属性(第2属性)と、に加えて、部分文書データのスタイルを表す属性(第3属性)が用いられる。なお複数の属性はこれらに限られず、4種類以上の属性を用いるように構成することもできる。
第3の実施形態にかかる情報処理装置は、上記実施形態と異なる属性をさらに用いる例を説明する。具体的には本実施形態では、複数の属性として、部分文書データのトピックであることを示す属性(第1属性)と、他の部分文書データと共通に用いられる表現であることを示す属性(第2属性)と、に加えて、部分文書データのスタイルを表す属性(第3属性)が用いられる。なお複数の属性はこれらに限られず、4種類以上の属性を用いるように構成することもできる。
図6は、第3の実施形態にかかる情報処理装置100-3の構成の一例を示すブロック図である。図6に示すように、情報処理装置100-3は、受付部101-2と、選択部102と、トピック抽出部103-2と、形式抽出部104と、トピック特徴量算出部105-2と、形式特徴量算出部106と、統合特徴量算出部107-3と、解析部108と、出力制御部109と、スタイル抽出部110-3と、スタイル特徴量算出部111-3と、記憶部121と、ディスプレイ122と、を備えている。
第3の実施形態では、スタイル抽出部110-3と、スタイル特徴量算出部111-3と、を追加したこと、および、統合特徴量算出部107-3の機能が、第2の実施形態と異なっている。その他の構成および機能は、第2の実施形態にかかる情報処理装置100-2のブロック図である図4と同様であるので、同一符号を付し、ここでの説明は省略する。
なお、図6は第2の実施形態(図4)にスタイル抽出部110-3およびスタイル特徴量算出部111-3を追加した構成の例であるが、第1の実施形態(図1)にこれらの各部を追加するように構成することもできる。
スタイル抽出部110-3は、文(部分文書データ)、文のスタイルを表す属性(第3属性)を特定するための語または句であるスタイル情報(第3情報の一例)を抽出する。
スタイル情報は、例えば、文の記述方法のスタイルに関する情報である。以下に示すように、文書データの種類によって記述方法の特徴が異なる。
・新聞記事:「である調」でフォーマルな記述方法
・SNSなどの個人が記述する文:フランクな記述方法
・話し言葉の書き起こし:「あー」「えー」などのフィラーまたは言いよどみなどを含んだ記述方法
・新聞記事:「である調」でフォーマルな記述方法
・SNSなどの個人が記述する文:フランクな記述方法
・話し言葉の書き起こし:「あー」「えー」などのフィラーまたは言いよどみなどを含んだ記述方法
なお、形式情報は、例えば独特の言い回し(決まり文句)を表す情報であり、スタイル情報とは異なる情報である。そこで、記述方法に関するスタイル情報と、記述方法にもトピックにも関連しない形式情報と、がそれぞれ抽出される。
スタイル情報の抽出方法はどのような方法であってもよいが、例えば、以下のような方法を適用できる。
まず、スタイル情報を抽出するために様々な記述方法の文書セットが使用される。例えば、新聞記事、論文、SNS、会議の書き起こし、および、講演の書き起こしなどの文書セットである。
まず、例えば上記の抽出方法E1と同様の手法により、文書セットそれぞれを用いて形式情報辞書が生成される。次に、各文書セットにより生成された複数の形式情報辞書が相互に比較され、共通しない単語がスタイル情報辞書に記憶され、形式情報辞書から除外される。
スタイル抽出部110-3は、このようにして作成されたスタイル情報辞書を参照し、選択された文に含まれる単語のうち、スタイル情報辞書に含まれる単語をスタイル情報として抽出する。
以下に、トピック情報、形式情報、および、スタイル情報の抽出例を示す。
(例3)
・選択された文:「それでは今日はリモートワーク下でのコミュニケーションについて学習しましょう」
・スタイル情報:「それでは__ましょう」
・形式情報:「__今日は__下での__について学習し__」
・トピック情報:「リモートワーク,コミュニケーション」
(例4)
・選択された文:「やっぱりコミュニケーションって重要だと思うんだよね」
・スタイル情報:「やっぱり__って__んだよね」
・形式情報:「__重要だと思う__」
・トピック情報:「コミュニケーション」
(例3)
・選択された文:「それでは今日はリモートワーク下でのコミュニケーションについて学習しましょう」
・スタイル情報:「それでは__ましょう」
・形式情報:「__今日は__下での__について学習し__」
・トピック情報:「リモートワーク,コミュニケーション」
(例4)
・選択された文:「やっぱりコミュニケーションって重要だと思うんだよね」
・スタイル情報:「やっぱり__って__んだよね」
・形式情報:「__重要だと思う__」
・トピック情報:「コミュニケーション」
スタイル情報を抽出することで、記述方法に依存しない、より汎用的な情報を含む形式情報を抽出することができる。
スタイル特徴量算出部111-3は、スタイル情報から、スタイル情報の特徴を表す特徴量(第3特徴量)を算出する。以下、スタイル特徴量算出部111-3により算出された特徴量を、スタイル特徴量という。
スタイル特徴量算出部111-3は、形式情報と同様に、word2vecまたはBERTモデルを用いて、スタイル情報をベクトルに変換し、変換したベクトルをスタイル特徴量としてもよい。
スタイル特徴量算出部111-3は、トピック情報と同様に、スタイル情報を単語列で表し、単語列に含まれる各単語をword2vecまたはBERTを使ってベクトルに変換し、単語列のベクトルをスタイル特徴量として算出してもよい。
統合特徴量算出部107-3は、トピック特徴量、形式特徴量および第3特徴量に基づいて、統合特徴量を算出する。例えば統合特徴量算出部107-3は、3種類の特徴量の重みづけ加算、または、3種類の特徴量の乗算により、統合特徴量を算出する。スタイル特徴量は記述方法を表す情報であるため、統合特徴量に含めなくてもよい。すなわち、統合特徴量算出部107-3は、トピック特徴量および形式特徴量のみを統合した統合特徴量を算出してもよい。
次に、第3の実施形態にかかる情報処理装置100-3による解析処理について図7を用いて説明する。図7は、第3の実施形態における解析処理の一例を示すフローチャートである。
第3の実施形態では、ステップS304とステップS308とが追加されたこと、および、ステップS309が、第2の実施形態の解析処理(図5)と異なっている。ステップS301~ステップS303、ステップS305~ステップS307、ステップS310~ステップS311は、図5のステップS201~ステップS203、ステップS204~ステップS206、ステップS208~ステップS209と同様の処理なので、その説明を省略する。
ステップS304では、スタイル抽出部110-3は、選択された文からスタイル情報を抽出する(ステップS304)。
ステップS308では、スタイル特徴量算出部111-3は、スタイル情報からスタイル特徴量を算出する(ステップS308)。
ステップS309では、統合特徴量算出部107-3は、形式特徴量とトピック特徴量とスタイル特徴量とを統合した統合特徴量を算出する(ステップS309)。
このように、第3の実施形態では、3種類の属性に関する特徴量を用いた文書データの解析を実行することができる。これにより、より高精度に文書データを解析可能することができる。
以上説明したとおり、第1から第3の実施形態によれば、文書をより高精度に解析することができる。
次に、第1から第3の実施形態にかかる情報処理装置のハードウェア構成について図8を用いて説明する。図8は、第1から第3の実施形態にかかる情報処理装置のハードウェア構成例を示す説明図である。
第1から第3の実施形態にかかる情報処理装置は、CPU51などの制御装置と、ROM(Read Only Memory)52やRAM(Random Access Memory)53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、各部を接続するバス61を備えている。
第1から第3の実施形態にかかる情報処理装置で実行されるプログラムは、ROM52等に予め組み込まれて提供される。
第1から第3の実施形態にかかる情報処理装置で実行されるプログラムは、インストール可能な形式または実行可能な形式のファイルでCD-ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD-R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。
さらに、第1から第3の実施形態にかかる情報処理装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第1から第3の実施形態にかかる情報処理装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
第1から第3の実施形態にかかる情報処理装置で実行されるプログラムは、コンピュータを上述した情報処理装置の各部として機能させうる。このコンピュータは、CPU51がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100、100-2、100-3 情報処理装置
101、101-2 受付部
102 選択部
103、103-2 トピック抽出部
104 形式抽出部
105、105-2 トピック特徴量算出部
106 形式特徴量算出部
107、107-3 統合特徴量算出部
108 解析部
109 出力制御部
110-3 スタイル抽出部
111-3 スタイル特徴量算出部
121 記憶部
122 ディスプレイ
101、101-2 受付部
102 選択部
103、103-2 トピック抽出部
104 形式抽出部
105、105-2 トピック特徴量算出部
106 形式特徴量算出部
107、107-3 統合特徴量算出部
108 解析部
109 出力制御部
110-3 スタイル抽出部
111-3 スタイル特徴量算出部
121 記憶部
122 ディスプレイ
Claims (16)
- 文書データから1つ以上の部分文書データを選択する選択部と、
前記部分文書データから、前記部分文書データの第1属性を特定するための語または句である第1情報を抽出する第1抽出部と、
前記部分文書データから、前記部分文書データの第2属性を特定するための語または句である第2情報を抽出する第2抽出部と、
前記第1情報の特徴を表す第1特徴量を算出する第1特徴量算出部と、
前記第2情報の特徴を表す第2特徴量を算出する第2特徴量算出部と、
前記第1特徴量および前記第2特徴量に基づいて、前記文書データを解析する解析部と
を備える情報処理装置。 - 前記第1特徴量および前記第2特徴量に基づいて、前記部分文書データの特徴を表す統合特徴量を算出する統合特徴量算出部をさらに備え、
前記解析部は、1つ以上の前記部分文書データそれぞれについて算出された1つ以上の前記統合特徴量を用いて、前記文書データを解析する、
請求項1に記載の情報処理装置。 - 前記統合特徴量算出部は、前記第1特徴量と前記第2特徴量との重みづけ加算、または、前記第1特徴量と前記第2特徴量との乗算により、前記統合特徴量を算出する、
請求項2に記載の情報処理装置。 - 前記第1属性は、前記部分文書データのトピックであることを示す属性であり、
前記第2属性は、他の部分文書データと共通に用いられる表現であることを示す属性であり、
前記部分文書データから、前記部分文書データのスタイルを表す第3属性を特定するための語または句である第3情報を抽出する第3抽出部と、
前記第3情報の特徴を表す第3特徴量を算出する第3特徴量算出部と、
をさらに備え、
前記統合特徴量算出部は、前記第1特徴量、前記第2特徴量および前記第3特徴量に基づいて、前記統合特徴量を算出する、
請求項2に記載の情報処理装置。 - 前記解析部は、前記第1特徴量を用いて前記文書データを解析した第1解析結果と、前記第2特徴量を用いて前記文書データを解析した第2解析結果と、を比較し、前記第1解析結果と前記第2解析結果とが一致しない場合、予め定められた規則に従い、前記第1解析結果と前記第2解析結果とのうち一方を出力する、
請求項1に記載の情報処理装置。 - 前記第1抽出部は、さらに、前記文書データから、前記文書データの前記第1属性を特定するための語または句である文書データ情報を抽出し、
前記第1特徴量算出部は、前記文書データ情報の特徴に対する、前記第1情報の特徴の類似度を、前記第1特徴量として算出する、
請求項1に記載の情報処理装置。 - 前記類似度が大きい順に予め定められた個数の前記部分文書データ、または、前記類似度が閾値以上である前記部分文書データを出力する出力制御部をさらに備える、
請求項6に記載の情報処理装置。 - 前記解析部は、前記第1特徴量および前記第2特徴量に基づいて、前記文書データに含まれる1つ以上の前記部分文書データそれぞれに対してラベルを付与する、
請求項1に記載の情報処理装置。 - 前記解析部は、前記第1特徴量および前記第2特徴量に基づいて、前記文書データの要約文を生成する、
請求項1に記載の情報処理装置。 - 前記第1抽出部は、予め定められた属性を表す1つ以上の語または句を含む辞書情報を用いて、前記辞書情報に含まれる語または句を前記第1情報として抽出し、
前記第2抽出部は、前記辞書情報に含まれない語または句を前記第2情報として抽出する、
請求項1に記載の情報処理装置。 - 前記第2抽出部は、予め定められた属性を表す1つ以上の語または句を含む辞書情報を用いて、前記辞書情報に含まれる語または句を前記第2情報として抽出し、
前記第1抽出部は、前記辞書情報に含まれない語または句を前記第1情報として抽出する、
請求項1に記載の情報処理装置。 - 前記第1抽出部は、前記文書データ内での頻度を表すスコアが閾値より小さい語または句を前記第1情報として抽出し、
前記第2抽出部は、前記文書データ内での頻度を表すスコアが閾値以上である語または句を前記第2情報として抽出する、
請求項1に記載の情報処理装置。 - 前記第1抽出部は、前記第1情報が、前記第1属性を表すことの確からしさを表す第1確信度を対応づけた前記第1情報を抽出し、
前記第2抽出部は、前記第2情報が、前記第2属性を表すことの確からしさを表す第2確信度を対応づけた前記第2情報を抽出し、
前記第1特徴量算出部は、前記第1情報の特徴を表す値に前記第1確信度を乗じることにより前記第1特徴量を算出し、
前記第2特徴量算出部は、前記第2情報の特徴を表す値に前記第2確信度を乗じることにより前記第2特徴量を算出する、
請求項1に記載の情報処理装置。 - 前記第1属性は、前記部分文書データのトピックであることを示す属性であり、
前記第2属性は、他の部分文書データと共通に用いられる表現であることを示す属性である、
請求項1に記載の情報処理装置。 - 情報処理装置で実行される情報処理方法であって、
文書データから1つ以上の部分文書データを選択する選択ステップと、
前記部分文書データから、前記部分文書データの第1属性を特定するための語または句である第1情報を抽出する第1抽出ステップと、
前記部分文書データから、前記部分文書データの第2属性を特定するための語または句である第2情報を抽出する第2抽出ステップと、
前記第1情報の特徴を表す第1特徴量を算出する第1特徴量算出ステップと、
前記第2情報の特徴を表す第2特徴量を算出する第2特徴量算出ステップと、
前記第1特徴量および前記第2特徴量に基づいて、前記文書データを解析する解析ステップと
を含む情報処理方法。 - コンピュータに、
文書データから1つ以上の部分文書データを選択する選択ステップと、
前記部分文書データから、前記部分文書データの第1属性を特定するための語または句である第1情報を抽出する第1抽出ステップと、
前記部分文書データから、前記部分文書データの第2属性を特定するための語または句である第2情報を抽出する第2抽出ステップと、
前記第1情報の特徴を表す第1特徴量を算出する第1特徴量算出ステップと、
前記第2情報の特徴を表す第2特徴量を算出する第2特徴量算出ステップと、
前記第1特徴量および前記第2特徴量に基づいて、前記文書データを解析する解析ステップと
を実行させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022110120A JP2024008334A (ja) | 2022-07-08 | 2022-07-08 | 情報処理装置、情報処理方法およびプログラム |
US18/166,303 US20240012998A1 (en) | 2022-07-08 | 2023-02-08 | Information processing device, information processing method, and computer program product |
CN202310153138.4A CN117371424A (zh) | 2022-07-08 | 2023-02-22 | 信息处理装置、信息处理方法以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022110120A JP2024008334A (ja) | 2022-07-08 | 2022-07-08 | 情報処理装置、情報処理方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024008334A true JP2024008334A (ja) | 2024-01-19 |
Family
ID=89393531
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022110120A Pending JP2024008334A (ja) | 2022-07-08 | 2022-07-08 | 情報処理装置、情報処理方法およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20240012998A1 (ja) |
JP (1) | JP2024008334A (ja) |
CN (1) | CN117371424A (ja) |
-
2022
- 2022-07-08 JP JP2022110120A patent/JP2024008334A/ja active Pending
-
2023
- 2023-02-08 US US18/166,303 patent/US20240012998A1/en active Pending
- 2023-02-22 CN CN202310153138.4A patent/CN117371424A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20240012998A1 (en) | 2024-01-11 |
CN117371424A (zh) | 2024-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cummins et al. | Multimodal bag-of-words for cross domains sentiment analysis | |
US8386240B2 (en) | Domain dictionary creation by detection of new topic words using divergence value comparison | |
JP3768205B2 (ja) | 形態素解析装置、形態素解析方法及び形態素解析プログラム | |
WO2017127296A1 (en) | Analyzing textual data | |
US20100125459A1 (en) | Stochastic phoneme and accent generation using accent class | |
JP5221768B2 (ja) | 翻訳装置、及びプログラム | |
WO2009026850A1 (en) | Domain dictionary creation | |
US20230223009A1 (en) | Language-agnostic Multilingual Modeling Using Effective Script Normalization | |
Houjeij et al. | A novel approach for emotion classification based on fusion of text and speech | |
JP7272060B2 (ja) | 生成方法、学習方法、生成プログラム、及び生成装置 | |
JP7117629B2 (ja) | 翻訳装置 | |
CN113761377A (zh) | 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质 | |
US8666987B2 (en) | Apparatus and method for processing documents to extract expressions and descriptions | |
JP5722375B2 (ja) | 文末表現変換装置、方法、及びプログラム | |
JP2017021523A (ja) | 用語意味コード判定装置、方法、及びプログラム | |
JP2024008334A (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP7135730B2 (ja) | 要約生成方法及び要約生成プログラム | |
Bruchansky | Political footprints: Political discourse analysis using pre-trained word vectors | |
CN112347786A (zh) | 人工智能评分训练方法和装置 | |
CN112988965B (zh) | 文本数据处理方法、装置、存储介质及计算机设备 | |
CN110008307B (zh) | 一种基于规则和统计学习的变形实体识别方法和装置 | |
JP2011180836A (ja) | 記号変換装置、記号変換方法、記号変換プログラム | |
JP7258627B2 (ja) | 採点支援装置、その方法、およびプログラム | |
JP5138622B2 (ja) | 情報処理装置及び不満抽出方法及びプログラム | |
Chowdhury et al. | Identifying keyword predictors in lecture video screen text |