JP2024008334A

JP2024008334A - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: JP2024008334A
Application number: JP2022110120A
Authority: JP
Inventors: 優佳小林; Yuka Kobayashi; 尚水吉田; Takami Yoshida; 憲治岩田; Kenji Iwata; 務嗣久島; Tsuyoshi Kushima; 尚義永江; Hisayoshi Nagae
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2022-07-08
Filing date: 2022-07-08
Publication date: 2024-01-19
Also published as: US20240012998A1; CN117371424A

Abstract

【課題】文書をより高精度に解析する。【解決手段】情報処理装置は、選択部、第１抽出部、第２抽出部、第１特徴量算出部、第２特徴量算出部および解析部を備える。選択部は、文書データから１つ以上の部分文書データを選択する。第１抽出部は、部分文書データから、部分文書データの第１属性を特定するための語または句である第１情報を抽出する。第２抽出部は、部分文書データから、部分文書データの第２属性を特定するための語または句である第２情報を抽出する。第１特徴量算出部は、第１情報の特徴を表す第１特徴量を算出する。第２特徴量算出部は、第２情報の特徴を表す第２特徴量を算出する。解析部は、第１特徴量および第２特徴量に基づいて、文書データを解析する。【選択図】図１

Description

本発明の実施形態は、情報処理装置、情報処理方法およびプログラムに関する。

重要フレーズの抽出、または、要約文を生成する際に文書の話題に関する情報の抽出を行い、抽出結果に基づいて文書を解析する技術がある。

例えば、着目文書から着目文書話題語を抽出し、参照用文書から背景話題語を抽出し、着目文書話題語と背景話題語の両方を含むフレーズを着目文書から抽出して要約文に使用する技術が提案されている。

特許第５８８４７４０号公報

しかしながら、従来技術では、文書を高精度に解析できない場合があった。本発明は、文書をより高精度に解析できる情報処理装置、情報処理装置、情報処理方法およびプログラムを提供することを目的とする。

実施形態の情報処理装置は、選択部、第１抽出部、第２抽出部、第１特徴量算出部、第２特徴量算出部および解析部を備える。選択部は、文書データから１つ以上の部分文書データを選択する。第１抽出部は、部分文書データから、部分文書データの第１属性を特定するための語または句である第１情報を抽出する。第２抽出部は、部分文書データから、部分文書データの第２属性を特定するための語または句である第２情報を抽出する。第１特徴量算出部は、第１情報の特徴を表す第１特徴量を算出する。第２特徴量算出部は、第２情報の特徴を表す第２特徴量を算出する。解析部は、第１特徴量および第２特徴量に基づいて、文書データを解析する。

第１の実施形態にかかる情報処理装置のブロック図。第１の実施形態における解析処理のフローチャート。表示画面の例を示す図。第２の実施形態にかかる情報処理装置のブロック図。第２の実施形態における解析処理のフローチャート。第３の実施形態にかかる情報処理装置のブロック図。第３の実施形態における解析処理のフローチャート。実施形態にかかる情報処理装置のハードウェア構成図。

以下に添付図面を参照して、この発明にかかる情報処理装置の好適な実施形態を詳細に説明する。

上記のように、従来技術では、文書を高精度に解析できない場合があった。例えば、トピック（話題）に基づく解析では、新規なトピックを持つ文書に対応できない。

一方、文書では重要な情報を提示する際に用いられる独特の言い回し（決まり文句）が存在する。このような言い回しなどを表す情報（形式情報）をもとに解析を行うことで、トピックのみによる解析よりも精度を向上させることが期待できる。

上記の要約文生成を行う技術では、着目文書話題語のみでなく背景話題語も用いるが、背景話題語を抽出するために別の文書（参照用文書）が必要となる。トピックを示す情報（トピック情報）と形式情報とを併用する場合、このような別の文書の入力を不要とすることが望ましい。

（第１の実施形態）
第１の実施形態にかかる情報処理装置は、同じ文書データから複数の属性を特定するための語または句である複数の情報を抽出し、複数の情報の特徴を表す複数の特徴量を算出する。そして本実施形態の情報処理装置は、複数の特徴量を用いて文書データを解析する。これにより、文書をより高精度に解析可能となる。

本実施形態では、複数の属性として、部分文書データのトピックであることを示す属性（第１属性）と、他の部分文書データと共通に用いられる表現であることを示す属性（第２属性）と、を用いる例を説明する。なお複数の属性はこれらに限られない。

また部分文書データは、解析の対象となる文書データに含まれるデータであり、例えば、１つの文、複数の文（例えば段落）、および、文より小さい単位の語または句（例えば、読点で区切られた語または句）であるが、これらに限られない。以下では、主に文を部分文書データとする場合を例に説明する。

図１は、第１の実施形態にかかる情報処理装置１００の構成の一例を示すブロック図である。図１に示すように、情報処理装置１００は、受付部１０１と、選択部１０２と、トピック抽出部１０３（第１抽出部の一例）と、形式抽出部１０４（第２抽出部の一例）と、トピック特徴量算出部１０５（第１特徴量算出部の一例）と、形式特徴量算出部１０６（第２特徴量算出部の一例）と、統合特徴量算出部１０７と、解析部１０８と、出力制御部１０９と、記憶部１２１と、ディスプレイ１２２と、を備えている。

受付部１０１は、情報処理装置１００で用いられる各種情報の入力を受け付ける。例えば受付部１０１は、解析対象となる文書データの入力を受け付ける。文書データは、どのような方法で作成されてもよい。例えば文書データは、新聞記事、論文、ウェブサイト上の文書、および、ＳＮＳ（Social Networking Service）上の文書などの人が記述した文書のデータでもよいし、会議および講演などの音声を音声認識または書き起こしによって文書化したデータであってもよい。文書データは、１つ以上の文（部分文書データの一例）を含む。

選択部１０２は、文書データから１つ以上の文（部分文書データ）を選択する。選択方法はどのような方法であってもよいが、例えば、文書データに含まれるすべての文を選択する方法、および、不要な文以外の文を選択する方法を適用できる。

トピック抽出部１０３は、選択された文それぞれから、文のトピック（第１属性の一例）を特定するための語または句である情報（第１情報）を抽出する。以下、トピック抽出部１０３により抽出された情報をトピック情報という。

形式抽出部１０４は、選択された文それぞれから、他の文と共通に用いられる表現（第２属性の一例）を特定するための語または句である情報（第２情報）を抽出する。この情報は、例えば、言い回しなどの文書の形式を表す情報（形式情報）に相当する。以下、形式抽出部１０４により抽出された情報を形式情報という。

トピック情報および形式情報の抽出方法としては、以下のような複数の例のうちいずれかが採用されうる。

（抽出方法Ｅ１）予め作成した形式情報辞書（辞書情報の一例）に含まれる情報を形式情報として抽出し、形式情報辞書に含まれない情報をトピック情報として抽出する。

形式情報辞書は、例えば、以下のように作成される。まず、予め用意された大量の文書に含まれる各単語について、その単語が含まれる文書数をカウントし、以下の式でＩＤＦ（Inverse Document Frequency）を算出する。
ＩＤＦ＝（全文書数）／（単語が含まれる文書数）

ＩＤＦが小さいほど様々な文書に含まれる一般的な単語であるということになる。このため、ＩＤＦが閾値より小さい単語を形式情報として集めて形式情報辞書が作成される。

形式抽出部１０４は、このようにして作成された形式情報辞書を参照し、選択された文に含まれる単語のうち、形式情報辞書に含まれる単語を形式情報として抽出する。トピック抽出部１０３は、選択された文に含まれる単語のうち、形式情報辞書に含まれない単語をトピック情報として抽出する。

以下に、形式情報およびトピック情報の抽出例を示す。
（例１）
・選択された文：「それでは今日はリモートワーク下でのコミュニケーションについて学習しましょう」
・形式情報：「それでは今日は＿＿下での＿＿について学習しましょう」
・トピック情報：「リモートワーク，コミュニケーション」
（例２）
・選択された文：「電話会議では表情や手振りなどのノンバーバルなチャンネルを使用することができません」
・形式情報：「＿＿では＿＿や＿＿などの＿＿な＿＿を使用することができません」
・トピック情報：「電話会議，表情，手振り，ノンバーバル，チャンネル」

なお、形式情報辞書は、文書データのトピックに関係しない単語の辞書である。このため、形式情報辞書の作成に使用した文書データとは別の文書データに対しても適用可能である。

形式情報辞書の作成方法は上記の例に限られない。ＩＤＦとは異なる情報を用いて一般的な単語を収集して形式情報辞書が作成されてもよい。このような情報としては、例えば、ｗｏｒｄ２ｖｅｃが挙げられる。例えば、各単語について予めｗｏｒｄ２ｖｅｃのモデルが学習される。ｗｏｒｄ２ｖｅｃのベクトルの大きさが小さいほど一般的な単語であると解釈することができる。すなわち、ベクトルの大きさが閾値より小さい単語を集めることにより、形式情報辞書を作成することができる。

抽出方法Ｅ１は、文書データ内での頻度を表すスコアと閾値との比較結果に応じて、トピック情報と形式情報とを抽出する方法と解釈することができる。すなわち、トピック抽出部１０３は、文書データ内での頻度を表すスコアが閾値より小さい語または句をトピック情報として抽出する。形式抽出部１０４は、文書データ内での頻度を表すスコアが閾値以上である語または句を形式情報として抽出する。頻度を表すスコアは、例えばＩＤＦのベクトルまたはｗｏｒｄ２ｖｅｃのベクトルの大きさ（ベクトルの各単語に対応する要素の大きさ）である。

（抽出方法Ｅ２）予め作成したトピック情報辞書（辞書情報の一例）に含まれる情報をトピック情報として抽出し、トピック情報辞書に含まれない情報を形式情報として抽出する。

トピック情報辞書は、例えば、以下のように作成される。まず、予め用意された解析対象に関する文書から、ＩＤＦまたはｗｏｒｄ２ｖｅｃによって一般性の高い単語が収集される。収集した一般性の高い単語以外の単語をトピック情報として集めてトピック情報辞書が作成される。

形式抽出部１０４は、このようにして作成されたトピック情報辞書を参照し、選択された文に含まれる単語のうち、トピック情報辞書に含まれない単語を形式情報として抽出する。トピック抽出部１０３は、選択された文に含まれる単語のうち、トピック情報辞書に含まれる単語をトピック情報として抽出する。

（抽出方法Ｅ３）トピックを表すことの確からしさを表す確信度（第１確信度）を対応づけたトピック情報、および、他の文と共通に用いられる表現を表すことの確からしさを表す確信度（第２確信度）を対応づけた形式情報を抽出する。

トピック抽出部１０３は、例えばＩＤＦまたはｗｏｒｄ２ｖｅｃの大きさをトピック情報の確信度（第１確信度）とし、選択された文に含まれる各単語を、確信度とともにトピック情報として抽出する。

形式抽出部１０４は、例えばＩＤＦまたはｗｏｒｄ２ｖｅｃの大きさの逆数、あるいは、ＩＤＦまたはｗｏｒｄ２ｖｅｃの大きさにマイナス１を乗算した値を、形式情報の確信度（第２確信度）とし、選択された文に含まれる各単語を、確信度とともに形式情報として抽出する。

抽出方法Ｅ３では、選択された文に含まれるすべての単語がトピック情報および形式情報の両方に含まれることになる。抽出方法Ｅ３が採用される場合、トピック特徴量算出部１０５および形式特徴量算出部１０６は、確信度に応じた特徴量を算出するように構成される。

トピック特徴量算出部１０５は、トピック情報の特徴を表す特徴量（第１特徴量）を算出する。以下、トピック特徴量算出部１０５により算出された特徴量を、トピック特徴量という。

例えばトピック特徴量算出部１０５は、トピック情報に含まれる各単語の頻度をカウントし、文に含まれる各単語の頻度を列挙したベクトルを、トピック特徴量として算出する。上記（例１）および（例２）に示すように、トピック情報が単語列になる場合、単語列に含まれる各単語の頻度を列挙したベクトルが、トピック特徴量として算出される。

トピック特徴量の算出方法はこれに限られない。トピック特徴量算出部１０５は、単語または文をベクトルに変換するモデルを用いて、各単語をベクトルに変換し、このベクトルをトピック特徴量としてもよい。このようなモデルとしては、例えば、ｗｏｒｄ２ｖｅｃ、および、ＢＥＲＴ（Bidirectional Encoder Representations from Transformers）が挙げられる。

確信度（第１確信度）が対応づけられたトピック情報が抽出される構成の場合、トピック特徴量算出部１０５は、確信度を考慮してトピック特徴量を算出する。例えば、トピック特徴量算出部１０５は、上記の手法により算出したトピックの特徴を表すベクトルの各要素に対して、各要素に対応する単語に対応づけられた確信度をそれぞれ乗じ、トピック特徴量とする。トピック特徴量算出部１０５は、文ごとに、当該文に含まれる各単語に対応づけられた確信度の平均値を求め、求めた平均値を特徴量に乗じてもよい。

形式特徴量算出部１０６は、形式情報の特徴を表す特徴量（第２特徴量）を算出する。以下、形式特徴量算出部１０６により算出された特徴量を、形式特徴量という。

例えば形式特徴量算出部１０６は、ｗｏｒｄ２ｖｅｃおよびＢＥＲＴなどのモデルを用いて、形式情報をベクトルに変換し、このベクトルを形式特徴量とする。

確信度（第２確信度）が対応づけられた形式情報が抽出される構成の場合、形式特徴量算出部１０６は、確信度を考慮して形式特徴量を算出する。確信度を考慮した特徴量の算出方法は、トピック情報を形式情報に置き換える以外は、確信度を考慮したトピック特徴量の算出方法と同様である。

統合特徴量算出部１０７は、トピック特徴量および形式特徴量に基づいて、文の特徴を表す統合特徴量を算出する。例えば統合特徴量算出部１０７は、トピック特徴量と形式特徴量との重みづけ加算、または、トピック特徴量と形式特徴量との乗算により、統合特徴量を算出する。トピック特徴量に対する重み、および、形式特徴量に対する重みは、予め決められた固定値が用いられてもよいし、機械学習のモデルによって学習された値が用いられてもよい。

統合特徴量の算出方法は上記に限られない。例えば統合特徴量算出部１０７は、複数の特徴量を入力し、統合特徴量を出力するように学習されたニューラルネットワークモデルなどの機械学習モデルを用いて、統合特徴量を算出してもよい。

解析部１０８は、トピック特徴量および形式特徴量に基づいて、文書データを解析する。例えば解析部は、１つ以上の文それぞれについて、トピック特徴量および形式特徴量に基づいて算出された１つ以上の統合特徴量を用いて、文書データを解析する。統合特徴量を用いた解析方法は、どのような方法であってもよいが、例えば、以下のような解析方法を適用できる。

（解析方法Ａ１）文書データを管理および検索しやすくするために文書データにキーワードを付与する。キーワードは、例えば、トピック情報として抽出された単語列の中で、頻度の高い順に予め定められた個数の単語として抽出される。解析部１０８は、単語ごとの統合特徴量を入力して、各単語がキーワードであるか否かを示す情報を出力するニューラルネットワークモデルなどのモデルを用いて、キーワード、または、キーワードを含む文を求めてもよい。

（解析方法Ａ２）統合特徴量を用いて、文書データに含まれる１つ以上の文それぞれに対してラベルを付与する。例えば予め複数のラベルを用意しておき、解析部１０８は、文に対して、複数のラベルのいずれか付与してもよい。例えば論文記事であれば、序論、先行研究、提案手法、実験結果、および、まとめ、のような複数のセクションに分かれていることが多い。解析部１０８は、各文がいずれのセクションを表すのかをラベルとして付与することが可能である。また、解析部１０８は、文の内容に応じて、質問、回答、および、提案などの文の種類を表すラベルを付与することが可能である。ラベルの付与方法はどのような方法であってもよいが、例えば解析部１０８は、文ごとの統合特徴量を入力し、ラベルを出力するニューラルネットワークモデルなどのモデルを用いて、文それぞれにラベルを付与する。

（解析方法Ａ３）統合特徴量を用いて、文書データの要約文を生成する。要約文は一文のみではなく、複数文生成することも可能である。要約文の生成方法はどのような方法であってもよいが、例えば解析部１０８は、文ごとの統合特徴量を入力し、要約文を出力するニューラルネットワークモデルなどのモデルを用いて、要約文を生成する。

解析部１０８は、統合特徴量を用いずに文書データを解析してもよい。例えば、解析部１０８は、トピック特徴量を用いて文書データを解析した解析結果（第１解析結果）と、形式特徴量を用いて文書データを解析した解析結果（第２解析結果）と、を比較し、両者が一致しない場合、予め定められた規則に従い、両者のうち一方を出力してもよい。両者が一致する場合、解析部１０８は、一致する解析結果を出力する。規則はどのような規則であってもよいが、例えば、解析結果の信頼度が大きい方を優先して出力することを示す規則である。統合特徴量を用いない場合、統合特徴量算出部１０７は備えられなくてもよい。

出力制御部１０９は、情報処理装置１００で用いられる各種情報の出力を制御する。例えば出力制御部１０９は、解析部１０８による解析結果を示す情報をディスプレイ１２２に出力する。出力方法はディスプレイ１２２に表示する方法に限られず、例えば、他の装置にネットワーク等を介して送信する方法などの、他のどのような方法であってもよい。

記憶部１２１は、情報処理装置１００で用いられる各種情報を記憶する。例えば記憶部１２１は、受け付けられた文書データ、文書データから選択された１つ以上の文、文から抽出されたトピック情報および形式情報、並びに、算出された特徴量（トピック特徴量、形式特徴量、統合特徴量）などを記憶する。

記憶部１２１は、フラッシュメモリ、メモリカード、ＲＡＭ（Random Access Memory）、ＨＤＤ（Hard Disk Drive）、および、光ディスクなどの一般的に利用されているあらゆる記憶媒体により構成することができる。

ディスプレイ１２２は、出力制御部１０９の制御に従い各種情報を表示する表示装置である。ディスプレイ１２２は、例えばタッチパネル、および、液晶ディスプレイなどにより実現できる。

上記各部（受付部１０１、選択部１０２、トピック抽出部１０３、形式抽出部１０４、トピック特徴量算出部１０５、形式特徴量算出部１０６、統合特徴量算出部１０７、解析部１０８、および、出力制御部１０９）は、例えば、１または複数のプロセッサにより実現される。例えば上記各部は、ＣＰＵ（Central Processing Unit）などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のＩＣ（Integrated Circuit）などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち１つを実現してもよいし、各部のうち２つ以上を実現してもよい。

次に、第１の実施形態にかかる情報処理装置１００による文書データの解析処理について説明する。図２は、第１の実施形態における解析処理の一例を示すフローチャートである。

受付部１０１は、文書データの入力を受け付ける（ステップＳ１０１）。選択部１０２は、入力された文書データから１つ以上の文を選択する（ステップＳ１０２）。

以下のステップＳ１０３からステップＳ１０７は、選択された文ごとに実行される。まず、形式抽出部１０４は、選択された文それぞれから、形式情報を抽出する（ステップＳ１０３）。トピック抽出部１０３は、選択された文それぞれから、トピック情報を抽出する（ステップＳ１０４）。

形式特徴量算出部１０６は、形式情報から形式特徴量を算出する（ステップＳ１０５））。トピック特徴量算出部１０５は、トピック情報からトピック特徴量を算出する（ステップＳ１０６）。統合特徴量算出部１０７は、形式特徴量とトピック特徴量とを統合した統合特徴量を算出する（ステップＳ１０７）。

解析部１０８は、統合特徴量による文書データの解析を実行する（ステップＳ１０８）。出力制御部１０９は、解析部１０８による解析結果をディスプレイ１２２などに出力し（ステップＳ１０９）、解析処理を終了する。

図３は、出力制御部１０９により出力される表示画面の例を示す図である。図３では、「コロナ禍における新しいコミュニケーションについて」というタイトルが付された文書データ３０１を解析して得られる表示画面３１０の例が示されている。

表示画面３１０では、要約文、および、文書データから抽出されたキーワードが、解析結果として表示されている。キーワードを表示することで、要約文を読まなくても文書データの概要を把握することが可能となる。

このように、第１の実施形態では、同じ文書データから複数の属性を特定するための複数の情報が抽出され、複数の情報の特徴を表す複数の特徴量を用いて文書データが解析される。これにより、文書をより高精度に解析可能となる。また、複数の情報は同じ文書データから抽出されるため、例えば上記の背景話題語を用いて要約文生成を行う技術のように複数の文書を用いる必要がない。

（第２の実施形態）
第２の実施形態にかかる情報処理装置は、トピック特徴量の算出方法が、第１の実施形態と異なる。具体的には、本実施形態では、文書データのトピックを表す情報の特徴に対する、各文のトピック情報の特徴の類似度が、トピック特徴量として算出される。

図４は、第２の実施形態にかかる情報処理装置１００－２の構成の一例を示すブロック図である。図４に示すように、情報処理装置１００－２は、受付部１０１－２と、選択部１０２と、トピック抽出部１０３－２と、形式抽出部１０４と、トピック特徴量算出部１０５－２と、形式特徴量算出部１０６と、統合特徴量算出部１０７と、解析部１０８と、出力制御部１０９と、記憶部１２１と、ディスプレイ１２２と、を備えている。

第２の実施形態では、受付部１０１－２、トピック抽出部１０３－２、および、トピック特徴量算出部１０５－２の機能が、第１の実施形態と異なっている。その他の構成および機能は、第１の実施形態にかかる情報処理装置１００のブロック図である図１と同様であるので、同一符号を付し、ここでの説明は省略する。

受付部１０１－２は、受け付けた文書データをトピック抽出部１０３－２にも出力する点が、第１の実施形態の受付部１０１と異なっている。

トピック抽出部１０３－２は、さらに、文書データから、文書データのトピックであることを示す属性を特定するための語または句である文書トピック情報（文書データ情報の一例）を抽出する。

トピック特徴量算出部１０５－２は、文書トピック情報の特徴に対する、トピック情報の特徴の類似度を、トピック特徴量として算出する。

類似度はどのように算出されてもよいが、例えば、２種類の特徴量はベクトルで表されるため、トピック特徴量算出部１０５－２は、ベクトル間のノルムを類似度として算出する。例えばトピック特徴量算出部１０５－２は、文書トピック情報の特徴を表すベクトルと、トピック情報の特徴を表すベクトルと、のＬ２ノルムを算出する。Ｌ２ノルムが大きいほど類似度が低いため、トピック特徴量算出部１０５－２は、Ｌ２ノルムにマイナス１を乗算した値、または、Ｌ２ノルムの逆数（１／Ｌ２ノルム）を類似度とする。

トピック特徴量算出部１０５－２は、ベクトル間のコサイン類似度を類似度として算出してもよい。

なお、本実施形態では、解析部１０８は、トピック情報として抽出された単語列の中で、文書トピック情報との類似度が大きい順に予め定められた個数の単語をキーワードと抽出してもよい。また、出力制御部１０９は、類似度が大きい順に予め定められた個数の文、または、類似度が閾値以上である文を出力するように構成されてもよい。

次に、第２の実施形態にかかる情報処理装置１００－２による解析処理について図５を用いて説明する。図５は、第２の実施形態における解析処理の一例を示すフローチャートである。

第２の実施形態では、ステップＳ２０４およびステップＳ２０６が、第１の実施形態の解析処理（図２）におけるステップＳ１０４およびステップＳ１０６と異なっている。その他のステップＳ２０１～ステップＳ２０３、ステップＳ２０５、ステップＳ２０７～ステップＳ２０９は、ステップＳ１０１～ステップＳ１０３、ステップＳ１０５、ステップＳ１０７～ステップＳ１０９と同様の処理なので、その説明を省略する。

ステップＳ２０４では、トピック抽出部１０３－２は、選択された文それぞれからトピック情報を抽出するとともに、文書データ全体から文書トピック情報を抽出する（ステップＳ２０４）。

ステップＳ２０６では、トピック特徴量算出部１０５－２は、文書トピック情報に対するトピック情報の類似度であるトピック特徴量を算出する（ステップＳ２０６）。

このように、本実施形態では、トピック情報の特徴を表す情報（第１の実施形態でのトピック特徴量）をそのまま使用せず、文書データのトピックを示す文書トピック情報に対する類似度を、各文のトピック特徴量として使用する。これにより、各文の内容そのものの特徴が加味されないように構成できる。

ある文が重要な文であるか否かは、その文のトピックには依存しない。例えばトピックがスポーツである文と、トピックが映画である文とが存在する場合、トピックの種類によっていずれの文が重要であるかが決定されるわけではない。文書データ全体のトピックがスポーツであった場合、ある文がスポーツのトピックを含んでいれば、その文は文書データ全体のトピックと関連性が高いと思われるので重要であると考えられる。一方、ある文が映画のトピックを含んでいれば、その文のトピックは文書データ全体のトピックとは異なるので重要ではないと考えられる。このように文書データ全体と関連性（類似度）が高いか否かが重要であり、トピックそのものは重要ではない。

そこで本実施形態では、各文と文書データ全体とのトピックの類似度をトピック特徴量として使用する。これにより、トピックそのものの特徴を除外し、文書データ全体に対する類似性のみを考慮して解析することで、文書データのトピックに依存しない解析を行うことができる。

（第３の実施形態）
第３の実施形態にかかる情報処理装置は、上記実施形態と異なる属性をさらに用いる例を説明する。具体的には本実施形態では、複数の属性として、部分文書データのトピックであることを示す属性（第１属性）と、他の部分文書データと共通に用いられる表現であることを示す属性（第２属性）と、に加えて、部分文書データのスタイルを表す属性（第３属性）が用いられる。なお複数の属性はこれらに限られず、４種類以上の属性を用いるように構成することもできる。

図６は、第３の実施形態にかかる情報処理装置１００－３の構成の一例を示すブロック図である。図６に示すように、情報処理装置１００－３は、受付部１０１－２と、選択部１０２と、トピック抽出部１０３－２と、形式抽出部１０４と、トピック特徴量算出部１０５－２と、形式特徴量算出部１０６と、統合特徴量算出部１０７－３と、解析部１０８と、出力制御部１０９と、スタイル抽出部１１０－３と、スタイル特徴量算出部１１１－３と、記憶部１２１と、ディスプレイ１２２と、を備えている。

第３の実施形態では、スタイル抽出部１１０－３と、スタイル特徴量算出部１１１－３と、を追加したこと、および、統合特徴量算出部１０７－３の機能が、第２の実施形態と異なっている。その他の構成および機能は、第２の実施形態にかかる情報処理装置１００－２のブロック図である図４と同様であるので、同一符号を付し、ここでの説明は省略する。

なお、図６は第２の実施形態（図４）にスタイル抽出部１１０－３およびスタイル特徴量算出部１１１－３を追加した構成の例であるが、第１の実施形態（図１）にこれらの各部を追加するように構成することもできる。

スタイル抽出部１１０－３は、文（部分文書データ）、文のスタイルを表す属性（第３属性）を特定するための語または句であるスタイル情報（第３情報の一例）を抽出する。

スタイル情報は、例えば、文の記述方法のスタイルに関する情報である。以下に示すように、文書データの種類によって記述方法の特徴が異なる。
・新聞記事：「である調」でフォーマルな記述方法
・ＳＮＳなどの個人が記述する文：フランクな記述方法
・話し言葉の書き起こし：「あー」「えー」などのフィラーまたは言いよどみなどを含んだ記述方法

なお、形式情報は、例えば独特の言い回し（決まり文句）を表す情報であり、スタイル情報とは異なる情報である。そこで、記述方法に関するスタイル情報と、記述方法にもトピックにも関連しない形式情報と、がそれぞれ抽出される。

スタイル情報の抽出方法はどのような方法であってもよいが、例えば、以下のような方法を適用できる。

まず、スタイル情報を抽出するために様々な記述方法の文書セットが使用される。例えば、新聞記事、論文、ＳＮＳ、会議の書き起こし、および、講演の書き起こしなどの文書セットである。

まず、例えば上記の抽出方法Ｅ１と同様の手法により、文書セットそれぞれを用いて形式情報辞書が生成される。次に、各文書セットにより生成された複数の形式情報辞書が相互に比較され、共通しない単語がスタイル情報辞書に記憶され、形式情報辞書から除外される。

スタイル抽出部１１０－３は、このようにして作成されたスタイル情報辞書を参照し、選択された文に含まれる単語のうち、スタイル情報辞書に含まれる単語をスタイル情報として抽出する。

以下に、トピック情報、形式情報、および、スタイル情報の抽出例を示す。
（例３）
・選択された文：「それでは今日はリモートワーク下でのコミュニケーションについて学習しましょう」
・スタイル情報：「それでは＿＿ましょう」
・形式情報：「＿＿今日は＿＿下での＿＿について学習し＿＿」
・トピック情報：「リモートワーク，コミュニケーション」
（例４）
・選択された文：「やっぱりコミュニケーションって重要だと思うんだよね」
・スタイル情報：「やっぱり＿＿って＿＿んだよね」
・形式情報：「＿＿重要だと思う＿＿」
・トピック情報：「コミュニケーション」

スタイル情報を抽出することで、記述方法に依存しない、より汎用的な情報を含む形式情報を抽出することができる。

スタイル特徴量算出部１１１－３は、スタイル情報から、スタイル情報の特徴を表す特徴量（第３特徴量）を算出する。以下、スタイル特徴量算出部１１１－３により算出された特徴量を、スタイル特徴量という。

スタイル特徴量算出部１１１－３は、形式情報と同様に、ｗｏｒｄ２ｖｅｃまたはＢＥＲＴモデルを用いて、スタイル情報をベクトルに変換し、変換したベクトルをスタイル特徴量としてもよい。

スタイル特徴量算出部１１１－３は、トピック情報と同様に、スタイル情報を単語列で表し、単語列に含まれる各単語をｗｏｒｄ２ｖｅｃまたはＢＥＲＴを使ってベクトルに変換し、単語列のベクトルをスタイル特徴量として算出してもよい。

統合特徴量算出部１０７－３は、トピック特徴量、形式特徴量および第３特徴量に基づいて、統合特徴量を算出する。例えば統合特徴量算出部１０７－３は、３種類の特徴量の重みづけ加算、または、３種類の特徴量の乗算により、統合特徴量を算出する。スタイル特徴量は記述方法を表す情報であるため、統合特徴量に含めなくてもよい。すなわち、統合特徴量算出部１０７－３は、トピック特徴量および形式特徴量のみを統合した統合特徴量を算出してもよい。

次に、第３の実施形態にかかる情報処理装置１００－３による解析処理について図７を用いて説明する。図７は、第３の実施形態における解析処理の一例を示すフローチャートである。

第３の実施形態では、ステップＳ３０４とステップＳ３０８とが追加されたこと、および、ステップＳ３０９が、第２の実施形態の解析処理（図５）と異なっている。ステップＳ３０１～ステップＳ３０３、ステップＳ３０５～ステップＳ３０７、ステップＳ３１０～ステップＳ３１１は、図５のステップＳ２０１～ステップＳ２０３、ステップＳ２０４～ステップＳ２０６、ステップＳ２０８～ステップＳ２０９と同様の処理なので、その説明を省略する。

ステップＳ３０４では、スタイル抽出部１１０－３は、選択された文からスタイル情報を抽出する（ステップＳ３０４）。

ステップＳ３０８では、スタイル特徴量算出部１１１－３は、スタイル情報からスタイル特徴量を算出する（ステップＳ３０８）。

ステップＳ３０９では、統合特徴量算出部１０７－３は、形式特徴量とトピック特徴量とスタイル特徴量とを統合した統合特徴量を算出する（ステップＳ３０９）。

このように、第３の実施形態では、３種類の属性に関する特徴量を用いた文書データの解析を実行することができる。これにより、より高精度に文書データを解析可能することができる。

以上説明したとおり、第１から第３の実施形態によれば、文書をより高精度に解析することができる。

次に、第１から第３の実施形態にかかる情報処理装置のハードウェア構成について図８を用いて説明する。図８は、第１から第３の実施形態にかかる情報処理装置のハードウェア構成例を示す説明図である。

第１から第３の実施形態にかかる情報処理装置は、ＣＰＵ５１などの制御装置と、ＲＯＭ（Read Only Memory）５２やＲＡＭ（Random Access Memory）５３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５４と、各部を接続するバス６１を備えている。

第１から第３の実施形態にかかる情報処理装置で実行されるプログラムは、ＲＯＭ５２等に予め組み込まれて提供される。

第１から第３の実施形態にかかる情報処理装置で実行されるプログラムは、インストール可能な形式または実行可能な形式のファイルでＣＤ－ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ－Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。

さらに、第１から第３の実施形態にかかる情報処理装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第１から第３の実施形態にかかる情報処理装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

第１から第３の実施形態にかかる情報処理装置で実行されるプログラムは、コンピュータを上述した情報処理装置の各部として機能させうる。このコンピュータは、ＣＰＵ５１がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００、１００－２、１００－３情報処理装置
１０１、１０１－２受付部
１０２選択部
１０３、１０３－２トピック抽出部
１０４形式抽出部
１０５、１０５－２トピック特徴量算出部
１０６形式特徴量算出部
１０７、１０７－３統合特徴量算出部
１０８解析部
１０９出力制御部
１１０－３スタイル抽出部
１１１－３スタイル特徴量算出部
１２１記憶部
１２２ディスプレイ

Claims

文書データから１つ以上の部分文書データを選択する選択部と、
前記部分文書データから、前記部分文書データの第１属性を特定するための語または句である第１情報を抽出する第１抽出部と、
前記部分文書データから、前記部分文書データの第２属性を特定するための語または句である第２情報を抽出する第２抽出部と、
前記第１情報の特徴を表す第１特徴量を算出する第１特徴量算出部と、
前記第２情報の特徴を表す第２特徴量を算出する第２特徴量算出部と、
前記第１特徴量および前記第２特徴量に基づいて、前記文書データを解析する解析部と
を備える情報処理装置。
前記第１特徴量および前記第２特徴量に基づいて、前記部分文書データの特徴を表す統合特徴量を算出する統合特徴量算出部をさらに備え、
前記解析部は、１つ以上の前記部分文書データそれぞれについて算出された１つ以上の前記統合特徴量を用いて、前記文書データを解析する、
請求項１に記載の情報処理装置。
前記統合特徴量算出部は、前記第１特徴量と前記第２特徴量との重みづけ加算、または、前記第１特徴量と前記第２特徴量との乗算により、前記統合特徴量を算出する、
請求項２に記載の情報処理装置。
前記第１属性は、前記部分文書データのトピックであることを示す属性であり、
前記第２属性は、他の部分文書データと共通に用いられる表現であることを示す属性であり、
前記部分文書データから、前記部分文書データのスタイルを表す第３属性を特定するための語または句である第３情報を抽出する第３抽出部と、
前記第３情報の特徴を表す第３特徴量を算出する第３特徴量算出部と、
をさらに備え、
前記統合特徴量算出部は、前記第１特徴量、前記第２特徴量および前記第３特徴量に基づいて、前記統合特徴量を算出する、
請求項２に記載の情報処理装置。
前記解析部は、前記第１特徴量を用いて前記文書データを解析した第１解析結果と、前記第２特徴量を用いて前記文書データを解析した第２解析結果と、を比較し、前記第１解析結果と前記第２解析結果とが一致しない場合、予め定められた規則に従い、前記第１解析結果と前記第２解析結果とのうち一方を出力する、
請求項１に記載の情報処理装置。
前記第１抽出部は、さらに、前記文書データから、前記文書データの前記第１属性を特定するための語または句である文書データ情報を抽出し、
前記第１特徴量算出部は、前記文書データ情報の特徴に対する、前記第１情報の特徴の類似度を、前記第１特徴量として算出する、
請求項１に記載の情報処理装置。
前記類似度が大きい順に予め定められた個数の前記部分文書データ、または、前記類似度が閾値以上である前記部分文書データを出力する出力制御部をさらに備える、
請求項６に記載の情報処理装置。
前記解析部は、前記第１特徴量および前記第２特徴量に基づいて、前記文書データに含まれる１つ以上の前記部分文書データそれぞれに対してラベルを付与する、
請求項１に記載の情報処理装置。
前記解析部は、前記第１特徴量および前記第２特徴量に基づいて、前記文書データの要約文を生成する、
請求項１に記載の情報処理装置。
前記第１抽出部は、予め定められた属性を表す１つ以上の語または句を含む辞書情報を用いて、前記辞書情報に含まれる語または句を前記第１情報として抽出し、
前記第２抽出部は、前記辞書情報に含まれない語または句を前記第２情報として抽出する、
請求項１に記載の情報処理装置。
前記第２抽出部は、予め定められた属性を表す１つ以上の語または句を含む辞書情報を用いて、前記辞書情報に含まれる語または句を前記第２情報として抽出し、
前記第１抽出部は、前記辞書情報に含まれない語または句を前記第１情報として抽出する、
請求項１に記載の情報処理装置。
前記第１抽出部は、前記文書データ内での頻度を表すスコアが閾値より小さい語または句を前記第１情報として抽出し、
前記第２抽出部は、前記文書データ内での頻度を表すスコアが閾値以上である語または句を前記第２情報として抽出する、
請求項１に記載の情報処理装置。
前記第１抽出部は、前記第１情報が、前記第１属性を表すことの確からしさを表す第１確信度を対応づけた前記第１情報を抽出し、
前記第２抽出部は、前記第２情報が、前記第２属性を表すことの確からしさを表す第２確信度を対応づけた前記第２情報を抽出し、
前記第１特徴量算出部は、前記第１情報の特徴を表す値に前記第１確信度を乗じることにより前記第１特徴量を算出し、
前記第２特徴量算出部は、前記第２情報の特徴を表す値に前記第２確信度を乗じることにより前記第２特徴量を算出する、
請求項１に記載の情報処理装置。
前記第１属性は、前記部分文書データのトピックであることを示す属性であり、
前記第２属性は、他の部分文書データと共通に用いられる表現であることを示す属性である、
請求項１に記載の情報処理装置。
情報処理装置で実行される情報処理方法であって、
文書データから１つ以上の部分文書データを選択する選択ステップと、
前記部分文書データから、前記部分文書データの第１属性を特定するための語または句である第１情報を抽出する第１抽出ステップと、
前記部分文書データから、前記部分文書データの第２属性を特定するための語または句である第２情報を抽出する第２抽出ステップと、
前記第１情報の特徴を表す第１特徴量を算出する第１特徴量算出ステップと、
前記第２情報の特徴を表す第２特徴量を算出する第２特徴量算出ステップと、
前記第１特徴量および前記第２特徴量に基づいて、前記文書データを解析する解析ステップと
を含む情報処理方法。
コンピュータに、
文書データから１つ以上の部分文書データを選択する選択ステップと、
前記部分文書データから、前記部分文書データの第１属性を特定するための語または句である第１情報を抽出する第１抽出ステップと、
前記部分文書データから、前記部分文書データの第２属性を特定するための語または句である第２情報を抽出する第２抽出ステップと、
前記第１情報の特徴を表す第１特徴量を算出する第１特徴量算出ステップと、
前記第２情報の特徴を表す第２特徴量を算出する第２特徴量算出ステップと、
前記第１特徴量および前記第２特徴量に基づいて、前記文書データを解析する解析ステップと
を実行させるためのプログラム。