JP7034015B2 - 選択装置、学習装置、抽出装置、選択方法、学習方法、抽出方法、選択プログラム、学習プログラム、および抽出プログラム - Google Patents

選択装置、学習装置、抽出装置、選択方法、学習方法、抽出方法、選択プログラム、学習プログラム、および抽出プログラム Download PDF

Info

Publication number
JP7034015B2
JP7034015B2 JP2018117093A JP2018117093A JP7034015B2 JP 7034015 B2 JP7034015 B2 JP 7034015B2 JP 2018117093 A JP2018117093 A JP 2018117093A JP 2018117093 A JP2018117093 A JP 2018117093A JP 7034015 B2 JP7034015 B2 JP 7034015B2
Authority
JP
Japan
Prior art keywords
text
importance
learning
sentence
partial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018117093A
Other languages
English (en)
Other versions
JP2019219932A (ja
Inventor
隼人 小林
立 日暮
一真 村尾
毅司 増山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2018117093A priority Critical patent/JP7034015B2/ja
Publication of JP2019219932A publication Critical patent/JP2019219932A/ja
Application granted granted Critical
Publication of JP7034015B2 publication Critical patent/JP7034015B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

特許法第30条第2項適用 平成30年5月22日発行の2018年度人工知能学会全国大会(第32回)大会論文集(https://www.ai-gakkai.or.jp/jsai2018/proceedings)に発表
本発明は選択装置、学習装置、抽出装置、選択方法、学習方法、抽出方法、選択プログラム、学習プログラム、および抽出プログラムに関する。
従来、テキストの解析を行う技術が知られている。このような解析技術の一例として、複数のテキストの中から、特徴が各テキストの特徴に最も近いテキストを代表のテキストとして抽出し、抽出したテキストの理解を容易にするため、抽出したテキストの補完を行う技術が知られている。
特開2013-232098号公報
しかしながら、従来技術では、複数のテキストを有する文章の中から、見出しとなるテキストを適切に抽出することができない恐れがある。
例えば、複数のテキストを含む文章のサムネイルやタイトルといった見出しとして、文章に含まれるテキストのうち代表的なテキストを抽出したいという要望が考えられる。しかしながら、文章に含まれる各テキストは、挨拶となるテキストや主文となるテキストが混在すると考えられる。このため、従来技術のように、特徴が各テキストの特徴に最も近いテキストを代表のテキストとして抽出した場合は、文章に含まれるテキストのうち、見出しとして適切なテキストを抽出することができない場合がある。
本願は、上記に鑑みてなされたものであって、見出しとなるテキストの抽出精度を改善することを目的とする。
本願に係る選択装置は、処理対象となる対象文章から抽出された複数の部分テキストを取得する取得部と、学習データとなる学習文章から抽出された複数の部分テキストのそれぞれについて当該学習文章における重要性を学習したモデルを用いて、前記取得部により取得された複数の部分テキストのうち、前記対象文章における重要性がより高い部分テキストを選択する選択部とを有することを特徴とする。
実施形態の一態様によれば、見出しとなるテキストの抽出精度を改善する。
図1は、実施形態に係る情報提供装置が実行する処理の一例を示す図である。 図2は、実施形態に係る情報提供装置がテキスト範囲を拡張する処理の一例を示す図である。 図3は、実施形態に係る情報提供装置がテキスト領域に含まれるテキストを部分テキストとする処理の一例を示す図である。 図4は、実施形態に係る情報提供装置の構成例を示す図である。 図5は、実施形態に係る学習データデータベースに登録される情報の一例を示す図である。 図6は、実施形態に係る情報提供装置が実行する抽出処理の流れの一例を示すフローチャートである。 図7は、実施形態に係る情報提供装置が実行する学習処理の流れの一例を示すフローチャートである。 図8は、実施形態に係る情報提供装置が実行する選択処理の流れの一例を示すフローチャートである。 図9は、ハードウェア構成の一例を示す図である。
以下に、本願に係る選択装置、学習装置、抽出装置、選択方法、学習方法、抽出方法、選択プログラム、学習プログラム、および抽出プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る選択装置、学習装置、抽出装置、選択方法、学習方法、抽出方法、選択プログラム、学習プログラム、および抽出プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
[実施形態]
〔1.情報提供装置の概要について〕
まず、図1を用いて、選択装置、学習装置および抽出装置の一例である情報提供装置が実行する処理の一例について説明する。図1は、実施形態に係る情報提供装置が実行する処理の一例を示す図である。図1では、情報提供装置10は、以下に説明する選択処理、学習処理および抽出処理を実行する情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。
例えば、情報提供装置10は、インターネット等の所定のネットワークN(例えば、図2参照)を介して、端末装置100、配信装置200、および生成装置300と通信可能である。なお、情報提供装置10は、任意の数の端末装置100、配信装置200、および生成装置300と通信可能であってよい。
端末装置100は、スマートフォンやタブレット等のスマートデバイス、PC(Personal Computer)等、各種の情報処理装置により実現される。例えば、端末装置100は、各種の情報の投稿若しくは投稿された情報の表示を行う機能を有する。
配信装置200は、端末装置100を介して投稿された各種の情報を配信する機能を有する情報処理装置であり、サーバ装置やクラウドシステムにより実現される。例えば、配信装置200は、利用者から質問に関する投稿を受付けると、受付けた投稿を他の利用者に提供し、他の利用者から質問に対する回答を受付けると、受付けた回答を質問を行った利用者に対して提供するサービス、すなわち、Q&A(Question And Answer)サービスを提供する。なお、配信装置200が提供するサービスは、Q&Aサービスに限定されるものではなく、利用者から受付けた投稿を他の利用者に対して提供するものであれば、任意のサービスが適用可能である。
生成装置300は、後述する学習処理において用いられる学習データを生成する装置であり、サーバ装置やクラウドシステムにより実現される。例えば、生成装置300は、情報提供装置10から情報を受付けると、クラウドソージングにより情報に対するラベルの付与を行い、ラベルが付与された情報を学習データとして情報提供装置10へと提供する機能を有する。すなわち、生成装置300は、クラウドソージングに関するサービスを提供する提供者が使用する端末装置である。
〔1-1.投稿の提供について〕
ここで、配信装置200は、Q&Aサービス等、利用者から投稿された情報を他の利用者に配信するサービスを提供する。このようなサービスにおいては、タイトルやサムネイル等、本文の内容を示唆する情報(すなわち、見出し)の登録を受付けるものと、投稿の手間を省くため、本文の登録のみを受付けるものとが存在する。
ここで、本文の登録のみを受付けるサービスにおいては、本文から抽出された所定の文字列(すなわち、テキスト)が、本文の内容を示唆する見出しとして抽出され、抽出した情報を見出しとして表示される場合がある。例えば、従来技術では、本文の先頭20文字が見出しとして抽出し、利用者に対して抽出された見出しを送信する。そして、従来技術では、見出しのうち利用者が選択した見出しと対応する本文を利用者に対して配信する。
〔1-2.情報提供装置が実行する処理について〕
しかしながら、複数のテキストを有する文章の中から、見出しとなるテキストを適切に抽出するのは困難である。例えば、従来技術のように、文章の先頭から所定の文字数のテキストを見出しとして抽出された場合、挨拶等、文章の内容とはあまり関係が無いテキストを抽出する恐れがある。
そこで、情報提供装置10は、以下の抽出処理を実行する。まず、情報提供装置10は、文章から所定の条件を満たす複数の単語を選択する。また、情報提供装置10は、選択された単語を含む範囲を設定し、範囲に含まれるテキストの重要性であって、文章に含まれるテキストの統計的な解析結果に基づく重要性が高くなるように、設定された範囲を拡張する。そして、情報提供装置10は、拡張された範囲に含まれるテキストのうち、重要性が所定の条件を満たすテキストを、文章の内容を示すテキストの候補、すなわち、見出しの候補として抽出する。
また、情報提供装置10は、以下の学習処理を実行する。まず、情報提供装置10は、学習データとなる学習文章から抽出された複数の部分テキスト(すなわち、スニペット)を取得する。例えば、情報提供装置10は、上述した抽出処理により学習文章から抽出されたテキストの候補を部分テキストとして取得する。そして、情報提供装置10は、複数の部分テキストのそれぞれについて学習文章における重要性をモデルに学習させる。
また、情報提供装置10は、以下の選択処理を実行する。まず、情報提供装置10は、処理対象となる対象文章から抽出された複数の部分テキストを取得する。例えば、情報提供装置10は、上述した抽出処理により対象文章から抽出されたテキストを見出しの候補である部分テキストとして取得する。そして、情報提供装置10は、学習データとなる学習文章から抽出された複数の部分テキストのそれぞれについて学習文章における重要性を学習したモデル、すなわち、上述した学習処理により学習が行われたモデルを用いて、取得された複数の部分テキストのうち、対象文章における重要性がより高い部分テキストを見出しとして選択する。
〔1-3.処理の一例について〕
以下、図1を用いて、情報提供装置10が実行する各処理の一例について説明する。まず、配信装置200は、端末装置100から利用者が入力した文章を投稿情報として受付ける(ステップS1)。このような場合、配信装置200は、投稿情報を学習文章として情報提供装置10に提供する(ステップS2)。なお、配信装置200は、投稿情報を他の利用者に対して提供する処理を並行して実行してもよい。
このような場合、情報提供装置10は、学習文章から部分テキストの抽出を行う(ステップS3)。より具体的には、情報提供装置10は、学習文章から、学習文章の内容を示すテキストの候補、すなわち、学習文章の見出しの候補である部分テキストの抽出を行う。
〔1-3-1.抽出処理の一例について〕
ここで、情報提供装置10は、任意の手法を用いて、学習文章から部分テキストの抽出を行ってもよい。例えば、情報提供装置10は、句読点、クエスチョンマーク、エクスクラメーションマーク等といった分の末尾に配置される文末表現で学習文章を分割し、分割された各文章を部分テキストとして採用してもよい。また、情報提供装置10は、分割された各文章のうち先頭から所定の数の文字(例えば、20文字)を含む文字列を抽出し、抽出した文字列を部分テキストとしてもよい。また、情報提供装置10は、各種の文章解析技術を用いて、文章の区切りを特定し、特定した区切りで学習文章を分割することで、部分テキストの抽出を行ってもよい。
さらに、情報提供装置10は、上述した抽出処理を実行することで、学習文章から部分テキストの抽出を行ってもよい。例えば、情報提供装置10は、CRF(Conditional Random Fields)等の技術を用いて形態素解析を行い、学習文章に含まれる各単語を特定する。続いて、情報提供装置10は、特定した各単語から、所定の条件を満たす複数の単語を選択する。例えば、情報提供装置10は、名詞、動詞、形容詞、感動詞、接続詞、副詞等、所定の品詞を選択してもよい。また、例えば、情報提供装置10は、TF-IDF(Term Frequency-Inverse Document Frequency)のスコアを単語ごとに算出し、算出したスコアが所定の閾値を超える単語、すなわち、学習文章において統計的な重要性が所定の閾値を超える単語を選択してもよい。
続いて、情報提供装置10は、学習文章のうち、選択された単語を含む範囲をテキスト範囲TAとして設定する。そして、情報提供装置10は、テキスト範囲TAに含まれるテキストの重要性が高くなるように、設定されたテキスト範囲TAを徐々に拡張する。例えば、情報提供装置10は、テキスト範囲TAに含まれるテキストの統計的な重要性が高くなるように、テキスト範囲TAを拡張する。また、情報提供装置10は、テキスト範囲TAに含まれるテキストが所定の文章構造を有するように、テキスト範囲TAを拡張する。
ここで、情報提供装置10は、テキスト範囲TAに含まれるテキストの重要性として、学習文章に含まれるテキストの統計的な解析結果に基づく重要性を特定し、特定した重要性が高くなるように、テキスト範囲TAを徐々に拡張する。ここで、学習文章に含まれるテキストの統計的な解析結果に基づく重要性とは、例えば、同一若しくは類似する文字列の出現回数や出現頻度等、部分テキストの抽出対象となる文章における統計的な数値に基づいて特定される重要性である。なお、情報提供装置10は、例えば、テキストの分散表現に基づいて、テキストの重要性を推定し、推定した重要性が高くなるように、テキスト範囲TAを徐々に拡張してもよい。すなわち、情報提供装置10は、テキスト範囲TAに含まれるテキストが元の文章の一部若しくは全体と類似しているか否かを示す各種の指標に基づいて、テキスト範囲TAに含まれるテキストの重要性を特定するのであれば、任意の指標を用いて、重要性を特定して良い。例えば、情報提供装置10は、文字列の類似性や意味の類似性等を示す各種の指標であって、統計的に抽出可能な指標であれば任意の指標に基づいて、テキスト範囲TAに含まれるテキストの重要性を特定して良い。
例えば、情報提供装置10は、学習文章に含まれるテキストの出現頻度に基づく重要性が高くなるように、テキスト範囲TAを拡張する。また、情報提供装置10は、キーワード抽出に基づくスコア又はTF-IDFに基づくスコアに基づいて、テキスト範囲TAに含まれるテキストの重要性を特定し、特定した重要性が高くなるように、テキスト範囲TAを拡張する。
例えば、図2は、実施形態に係る情報提供装置がテキスト範囲を拡張する処理の一例を示す図である。例えば、情報提供装置10は、学習文章から単語#1-1を選択した場合、単語#1-1を含むテキスト範囲TA1を設定する。そして、情報提供装置10は、テキスト範囲TA1の学習文章における重要度を算出する。
例えば、情報提供装置10は、テキスト範囲TA1に含まれるテキストと同一または類似するテキストの出現回数、出現頻度、テキスト範囲TA1に含まれるテキストの文字数、文章全体の文字数に対するテキスト範囲TA1に含まれるテキストの文字数の割合等に基づいて、テキスト範囲TA1に含まれるテキストの重要度を示すスコアを算出する。例えば、情報提供装置10は、TF-IDFスコアを算出する。
また、情報提供装置10は、キーワード抽出の技術を用いて、テキスト範囲TA1が学習文章におけるキーワードを含んでいるかを推定する。そして、情報提供装置10は、キーワードを含んでいるか否か、含まれるキーワードの学習文章における重要性等に基づいて、テキスト範囲TA1に含まれるテキストの重要度を示すキーワードスコアを算出する。例えば、情報提供装置10は、キーワードが含まれている場合や、より重要なキーワードが含まれている場合に、より高い値のキーワードスコアを算出する。
そして、情報提供装置10は、TF-IDFスコアとキーワードスコアとに基づいて、統計スコアを算出する。例えば、情報提供装置10は、TF-IDFスコアとキーワードスコアとの和を統計スコアとして算出する。なお、情報提供装置10は、学習文章における重要度であって、統計的な情報に基づく重要度を示すスコアであれば、上述したTF-IDFスコアやキーワードスコア以外にも、任意のスコアに基づいて統計スコアを算出してよい。
また、情報提供装置10は、テキスト範囲TAに含まれるテキストが所定の文章構造を有するか否かを判定する。例えば、情報提供装置10は、テキスト範囲TA1に所定の品詞が所定の順番で含まれているか否かを判定する。より具体的な例を挙げると、情報提供装置10は、名詞と品詞とが所定の順番で含まれているか否かを判定する。そして、情報提供装置10は、テキスト範囲TA1に含まれるテキストの文章構造に応じた文章構造スコアをテキスト範囲TA1に付与する。例えば、情報提供装置10は、所定の文章構造により近い構造を有するテキスト範囲TA1に対し、より高い値の文章構造スコアを付与する。
そして、情報提供装置10は、統計スコアや文章構造スコアに基づく重要度を算出し、算出した重要度がより高い値となるように、テキスト範囲TAを拡張する。例えば、情報提供装置10は、テキスト範囲TA1に対し、テキスト範囲TA1と隣接するテキストを加えることで、テキスト範囲TA1を拡張する。そして、情報提供装置10は、拡張後のテキスト範囲TA1についても重要度を算出し、拡張前の重要度よりも拡張後の重要度の方が高くなる場合には、拡張後のテキスト範囲TAを新たなテキスト範囲TAとする。
例えば、情報提供装置10は、図2のステップS21に示すように、単語#1-1のみを含むテキスト範囲TA1の文章構造スコアおよび統計スコアを算出する。そして、例えば、情報提供装置10は、テキスト範囲TA1に対し、文章構造スコア「10」、および統計スコア「10」を付与する。このような場合、情報提供装置10は、文章構造スコアと統計スコアとの和である「20」を重要度としてテキスト範囲TA1に付与する。
続いて、情報提供装置10は、図2のステップS22に示すように、テキスト範囲TA1の範囲を拡張し、拡張したテキスト範囲TA1に含まれるテキストについて、文章構造スコアと統計スコアとを算出する。例えば、図2に示す例では、情報提供装置10は、拡張したテキスト範囲TA1に対し、文章構造スコア「30」と統計スコア「40」とを付与する。この結果、情報提供装置10は、テキスト範囲TA1に対し重要度「70」を付与することとなる。
ここで、図2に示す例では、拡張前のテキスト範囲TA1よりも拡張後のテキスト範囲TA1の重要度の方が高い。このような場合、情報提供装置10は、拡張後のテキスト範囲TA1を新たなテキスト範囲TA1として採用する。そして、情報提供装置10は、新たなテキスト範囲TA1をさらに拡張し、重要度が向上するか否かを判定する。このような処理を繰り返し実行することで、情報提供装置10は、テキスト範囲TA1に含まれるテキストの、学習文章における重要性が向上するように、テキスト範囲TA1を拡張することができる。
また、情報提供装置10は、新たなテキスト範囲TA1の重要度が所定の条件を満たした場合には、図2のステップS23に示すように、テキスト範囲TA1に含まれるテキストを部分テキスト#1として抽出する。例えば、情報提供装置10は、単語#1-1以外にも、所定の条件を満たす単語について上述した処理を行い、複数のテキスト範囲TAを設定する。また、情報提供装置10は、テキスト範囲TAごとに重要度を算出し、算出した重要度が高くなるように、各テキスト範囲TAを拡張する。そして、情報提供装置10は、各テキスト範囲TAのうち、重要度が高い方から順に所定の数のテキスト範囲TAを選択し、選択したテキスト範囲TAに含まれるテキストをそれぞれ部分テキストとして抽出する。
なお、情報提供装置10は、学習文章内において連続しないテキストを含む部分テキストを生成してもよい。例えば、情報提供装置10は、複数のテキスト範囲TAを含むテキスト領域TRを設定し、テキスト領域TRのうち、テキスト領域TRに含まれる複数のテキスト範囲TAの重要性が所定の条件を満たすテキスト領域TRを特定する。そして、情報提供装置10は、特定したテキスト領域TRに含まれるテキストを、学習文章の内容を示すテキストの候補として抽出してもよい。また、情報提供装置10は、テキスト領域TRに含まれるテキストのうち、テキスト範囲TAに含まれるテキスト以外のテキストを、テキストの省略を示す所定のテキストやタイポグラフィに置き換えたテキストを生成し、生成したテキストを部分テキストとして抽出してもよい。
例えば、図3は、実施形態に係る情報提供装置がテキスト領域に含まれるテキストを部分テキストとする処理の一例を示す図である。例えば、情報提供装置10は、図3のステップS31に示すように、単語#2-1を含むテキスト範囲TA2-1を設定し、単語#2-2を含むテキスト範囲TA2-2を設定する。そして、情報提供装置10は、テキスト範囲TA2-1とテキスト範囲TA2-2とが所定の条件を満たす場合は、図3のステップS32に示すように、テキスト範囲TA2-1とテキスト範囲TA2-2とを含むテキスト領域TRを設定する。
例えば、情報提供装置10は、テキスト範囲TA2-1とテキスト範囲TA2-2との距離を算出する。例えば、情報提供装置10は、テキスト範囲TA2-1の先頭となる文字からテキスト範囲TA2-2の先頭となる文字までの間に存在する文字数を算出する。そして、情報提供装置10は、算出した文字数が所定の閾値を下回る場合は、テキスト範囲TA2-1とテキスト範囲TA2-2とを含むテキスト領域TRを設定する。なお、情報提供装置10は、テキスト範囲TA2-1に含まれるテキストと、テキスト範囲TA202に含まれるテキストとの学習文章内における関連度を算出し、算出される関連度が所定の閾値を超える場合に、テキスト領域TRを設定してもよい。また、情報提供装置10は、テキスト範囲TA2-1に含まれるテキストと、テキスト範囲TA2-2に含まれるテキストとの文字の一致度が所定の閾値を下回る場合に、テキスト領域TRを設定してもよい。
続いて、情報提供装置10は、図3のステップS33に示すように、各テキスト範囲TA2-1、TA2-2ごとに、各テキスト範囲TA2-1、TA2-2に含まれるテキストの統計的な重要性が高くなるように、各テキスト範囲TA2-1、TA2-2を拡張する。例えば、情報提供装置10は、図2に示す処理をテキスト範囲ごとに実行することで、各テキスト範囲TA2-1、TA2-2を拡張してもよい。また、情報提供装置10は、各テキスト範囲TA2-1、TA2-2の重要度の和をテキスト領域TRの重要度として算出し、テキスト領域TRの重要度が高くなるように、各テキスト範囲TA2-1、TA2-2を拡張してもよい。
そして、情報提供装置10は、テキスト領域TRの重要度が所定の閾値を超える場合は、図3のステップS34に示すように、テキスト領域TRに含まれるテキストを部分テキストとして抽出する。例えば、情報提供装置10は、テキスト範囲TA2-1に含まれる部分テキスト#2-1と、テキスト範囲TA2-2に含まれる部分テキスト#2-2との間に、テキストの省略を示す三点リーダを挿入した部分テキスト#2を生成する。なお、情報提供装置10は、部分テキスト#2-1の前や、部分テキスト#2-2の後に三点リーダを挿入してもよい。
なお、後述する説明で明らかとなるように、抽出された部分テキストの中から、抽出元となる学習文章の見出しが選択される。このため、情報提供装置10は、部分テキストを学習文章の見出しの候補として抽出することとなる。
ここで、情報提供装置10は、上述した処理を組み合わせて実行してもよい。例えば、情報提供装置10は、学習文章から複数の単語を選択し、選択した単語ごとにテキスト範囲TAを設定するとともに、複数のテキスト範囲TAを含むテキスト領域TRを設定する。ここで、情報提供装置10は、重複するテキスト領域TRを設定してもよい。例えば、情報提供装置10は、単語#2-1および単語#2-2を含むテキスト領域TRと、単語#2-2および単語#2-3を含むテキスト領域TRとを設定してもよい。
そして、情報提供装置10は、各テキスト範囲TAの重要度と各テキスト領域TRの重要度とが最大化するように、各テキスト領域TAを拡張してもよい。すなわち、情報提供装置10は、テキスト範囲TAおよびテキスト領域TRの最適化を行ってもよい。その後、情報提供装置10は、テキスト範囲TAおよびテキスト領域TRのうち、重要度が高い方から順に所定の数のテキスト範囲TA若しくはテキスト領域TRを選択し、選択したテキスト範囲TA若しくはテキスト領域TRに含まれるテキストを部分テキストとして抽出してもよい。
また、情報提供装置10は、各テキスト範囲TAの近さに応じた重みを考慮してもよい。例えば、情報提供装置10は、テキスト範囲TA2-1とテキスト範囲TA2-2との距離が所定の閾値を下回る場合は、テキスト範囲TA2-1とテキスト範囲TA2-2との重要度を低下させてもよい。すなわち、情報提供装置10は、テキスト範囲TAが近すぎる場合には、重要度に対するペナルティを設定してもよい。また、情報提供装置10は、文末表現により分割された各文章から1つのテキスト範囲TAのみ、若しくは、1つのテキスト領域TRを設定してもよい。
なお、情報提供装置10は、任意の文章について上述した抽出処理を実行して良い。例えば、後述する説明で明らかとなるように、情報提供装置10は、見出しの選択対象となる対象文章について、上述した抽出処理を実行することで、見出しの候補となる部分テキストを抽出する。
〔1-3-2.学習処理の一例について〕
図1に戻り、説明を続ける。情報提供装置10は、部分テキストの抽出を行った場合、学習文章と学習文章から抽出した部分テキストとを生成装置300へと提供する(ステップS4)。このような場合、生成装置300は、部分テキストのうち学習文章の見出しとして適切な部分テキストを特定する。より具体的には、生成装置300は、クラウドソージングを用いて、学習文章における部分テキストの重要性を特定する(ステップS5)。
例えば、生成装置300は、学習文章と、その学習文章から抽出された複数の部分テキストとを複数の利用者に提供し、複数の部分テキストのうち、学習文章の見出しとして適切な部分テキストの選択を受付ける。そして、生成装置300は、選択結果に応じて、各部分テキストが見出しとして適切であるか否かを示す見出しスコアを付与する。例えば、生成装置300は、見出しとして適切であると選択された回数を見出しスコアとして各部分テキストに付与する。そして、生成装置300は、各見出しスコアを情報提供装置10に提供する。この結果、情報提供装置10は、見出しスコアを取得することとなる(ステップS6)。
続いて、情報提供装置10は、取得した見出しスコアを用いて、学習処理を実行する。例えば、情報提供装置10は、学習データとなる学習文章から抽出された複数の部分テキストを取得する。そして、情報提供装置10は、複数の部分テキストのそれぞれについて学習文章における重要性をモデルに学習させる。すなわち、情報提供装置10は、学習文章における各部分テキストの相対的な重要性をモデルに学習させる(ステップS7)。例えば、情報提供装置10は、学習文章から抽出された部分テキストのペアを複数生成し、生成したペアに含まれる部分テキストのうちどちらの重要性がより高いかをモデルに学習させる。
以下、学習処理の具体例について説明する。例えば、情報提供装置10は、複数の学習文章について、上述した抽出処理を実行し、部分テキストの抽出を行う。そして、情報提供装置10は、学習文章とその学習文章から抽出された部分テキストとの組を生成装置300に送信し、各部分テキストについて、その部分テキストの抽出元となる学習文章における重要性を示す見出しスコアを取得する。
続いて、情報提供装置10は、ランク学習により、各部分テキストの相対的な重要性をモデルに学習させる。例えば、情報提供装置10は、SVM(Support Vector Machine)やDNN(Deep Neural Network)等といった任意の分類器をモデルとして生成する。ここで、DNNは、CNN(Convolutional Neural Network)やRNN(Recurrent Neural Network)であってもよい。また、RNNは、LSTM(Long short-term memory)等であってもよい。
すなわち、情報提供装置10は、任意の形式のモデルの学習を行ってよい。また、情報提供装置10は、例えば、CNNとRNNとを組み合わせたモデル等、複数のモデルを組み合わせることで実現されるモデルの学習を行ってもよい。また、情報提供装置10は、プレトレーニングとして、利用者が投稿するテキストの特徴等、任意の特徴を学習したモデルを用いてもよい。
続いて、情報提供装置10は、同一の学習文章から抽出された部分テキストのペアを複数生成し、生成したペアに含まれる部分テキストのうちどちらの重要性がより高いかをモデルに学習させる。すなわち、情報提供装置10は、ペアワイズ法を用いて、同一の学習文章から抽出された複数の部分テキストの重要性の順位をモデルに学習させるランク学習を実行する。
ここで、情報提供装置10が実行するランク学習について説明する。例えば、ランク学習は、検索ランキングの最適化に用いられる手法であり、検索クエリをq、検索対象となる文章をx、検索クエリqに対する文章xの適合度をyとし、q、x、yの三つ組みの集合が与えられた場合に、検索結果を提示するための最適なランキングを学習する手法である。情報提供装置10は、このようなランク学習において、学習文章をq、その学習文章の見出し候補の選択肢、すなわち、その学習文章から抽出された部分テキストをx、各部分テキストに対して付与された見出しスコアをyとして、ランク学習を行う。
例えば、情報提供装置10は、複数の三つ組みのデータ(x,y,q)をデータDとして生成する。そして、情報提供装置10は、データDに含まれる三つ組みのペア((x,y,q),(x,y,q))を生成し、生成したペアから、q=qかつy>yとなる三つ組みのペアを抽出する。このようなペアは、以下の式(1)で定義される。
Figure 0007034015000001
そして、情報提供装置10は、抽出した三つ組みのペアが有する特徴をモデルに学習させる。より具体的には、情報提供装置10は、式(1)におけるPを用いて、以下の式(2)で定義される最適化問題を解くことで、ランク学習を実現する。ここで、式(2)におけるwは、学習させるモデルの重みベクトルである。また、式(2)におけるチルダ付のxは、部分テキストxから抽出された特徴量である。なお、情報提供装置10は、TF-IDFや分散表現に基づくベクトル、任意の手法により抽出された特徴量を採用してよい。また、式(2)における、Cは、正則化パラメータである。また、式(2)におけるlは、二重ヒンジ損失であり、式(3)で定義される。
Figure 0007034015000002
Figure 0007034015000003
なお、例えば、情報提供装置10は、モデルに対して部分テキストxと部分テキストxとを入力した際に、部分テキストxの方が見出しスコアが高い旨の情報を出力するように、バックプロパゲーション等の学習手法を用いて、モデルの学習を行ってもよい。また、情報提供装置10は、3つ以上の部分テキストが入力された場合に、各部分テキストの重要性の順位、すなわち見出しスコアの順位を示す情報を出力するように、モデルの学習を行ってもよい。このような処理の結果、情報提供装置10は、同一の文章に含まれる複数の部分テキストが入力された場合に、各部分テキストの重要性の順位を出力するモデルを生成することができる。
〔1-3-3.選択処理の一例について〕
続いて、情報提供装置10が実行する選択処理について説明する。例えば、配信装置200は、端末装置100から投稿情報を受付ける(ステップS8)。一方、配信装置200は、投稿情報を選択処理の対象となる対象文章として情報提供装置10に提供する(ステップS9)。このような場合、情報提供装置10は、対象文章から部分テキストの抽出を行う(ステップS10)。例えば、情報提供装置10は、対象文章に対して上述した抽出処理を実行することで、対象文章から抽出された部分テキストであって、統計的な解析結果に基づく重要性が所定の条件を満たすと判断された部分テキストを抽出する。
例えば、情報提供装置10は、対象文章から所定の条件を満たす複数の単語を選択し、選択された単語を含むテキスト範囲TAを設定し、テキスト範囲TAに含まれるテキストの重要性であって、対象文章に含まれるテキストの統計的な解析結果に基づく重要性が高くなるように、テキスト範囲TAを拡張する。また、情報提供装置10は、テキスト範囲TAに含まれるテキストが所定の文章構造を有するように、テキスト範囲TAを拡張する。
また、情報提供装置10は、対象文章に含まれるテキストの出現頻度に基づく重要性が高くなるように、テキスト範囲TAを拡張する。また、例えば、情報提供装置10は、キーワード抽出に基づくスコア又はTF-IDFに基づく統計スコアに基づいて、テキスト範囲TAに含まれるテキストの重要性を特定し、特定した重要性が高くなるように、各テキスト範囲TAを拡張する。そして、情報提供装置10は、拡張されたテキスト範囲TAに含まれるテキストのうち、重要性が所定の条件を満たすテキストを、部分テキストとして取得する。
なお、情報提供装置10は、複数のテキスト範囲TAを含むテキスト領域TRを設定し、テキスト領域TRのうち、テキスト領域TRに含まれる複数のテキスト範囲TAの重要性が所定の条件を満たすテキスト領域TRを特定し、特定したテキスト領域TRに含まれるテキストを、部分テキストとして取得してもよい。また、情報提供装置10は、テキスト領域TRに含まれるテキストのうち、複数のテキスト範囲TAに含まれるテキスト以外のテキストを、テキストの省略を示す所定のテキストやタイポグラフィに置き換えたテキストを、部分テキストとして取得してもよい。ここで、情報提供装置10は、部分テキストを、対象文章の見出しの候補として取得する。
そして、情報提供装置10は、対象文章から抽出された部分テキストを取得した場合は、学習データとなる学習文章から抽出された複数の部分テキストのそれぞれについて学習文章における重要性を学習したモデル、すなわち、上述した学習処理により学習が行われたモデルを用いて、取得された複数の部分テキストのうち、対象文章における重要性が最も高い部分テキストを選択する(ステップS11)。
例えば、情報提供装置10は、学習処理によって学習が行われたモデルに対し、対象文章から抽出された各部分テキストの特徴量を入力する。そして、情報提供装置10は、モデルの出力に基づいて、対象文章における各部分テキストの相対的な重要性の順位を特定する。例えば、情報提供装置10は、部分テキストの組を生成し、生成した組ごとに特徴量をモデルに入力することで、各組に含まれる部分テキストの重要性の順位を組ごとに特定する。そして、情報提供装置10は、組ごとに特定した重要性の順位に基づいて、対象文章における各部分テキストの相対的な重要性の順位を特定する。そして、情報提供装置10は、部分テキストのうち最も重要性が高い部分テキストを見出しとして選択する。
すなわち、情報提供装置10は、モデルとして、同一の学習文章から抽出された複数の部分テキストの重要性の順位を学習したモデルを用いて、取得された複数の部分テキストのうち、対象文章における重要性がより高い部分テキストを選択する。また、情報提供装置10は、モデルとして、同一の学習文章から抽出された部分テキストの相対的な重要性を学習したモデルを用いて、対象文章から取得された複数の部分テキストのうち、対象文章における重要性がより高い部分テキストを選択する。
また、情報提供装置10は、モデルとして、同一の学習文章から抽出された部分テキストのペアのうちどちらの重要性がより高いかを学習したモデルを用いて、対象文章から取得された複数の部分テキストのうち、対象文章における重要性がより高い部分テキストを選択する。また、情報提供装置10は、モデルとして、複数の学習文章について、同一の学習文章から抽出された部分テキストのペアのうちどちらの重要性がより高いかを学習したモデルを用いて、対象文章から取得された複数の部分テキストのうち、対象文章における重要性がより高い部分テキストを選択する。
そして、情報提供装置10は、選択した部分テキストを対象文章の見出しとして配信装置200に登録する(ステップS12)。このような処理の結果、情報提供装置10は、適切なテキストを対象文章の見出し、すなわち、代表となるテキストとして選択することができる。
例えば、上述した選択処理を実行した場合、情報提供装置10は、対象文章に含まれるテキストから見出しとなるテキストを抽出することとなる。このように、利用者が投稿したテキストから見出しとなるテキストを抽出した場合、不明瞭なテキストを抽出する可能性を低下させることができる。例えば、DNN等を用いて、利用者が投稿したテキストの特徴量から見出しとなるテキストを生成した場合、意味が不明瞭なテキストが生成される可能性がある。しかしながら、情報提供装置10は、対象文章に含まれる文字列から見出しとなる文字列を抽出するので、文字列が示す意味が不明瞭となる可能性を低下させることができる。
また、情報提供装置10は、単に学習文章や対象文章(以下、単に「文章」と総称する場合がある。)を文末表現で分割するのではなく、ボトムアップ形式で文章に含まれるテキストから見出しの候補となる部分テキストを抽出する。例えば、情報提供装置10は、単語から所定の単語を選択し、選択した単語を含むテキスト範囲TAを設定し、設定したテキスト範囲TAに含まれるテキストの重要性であって、抽出元となる文章における相対的な重要性を、抽出元となる文章における統計的な解析結果に基づく重要性を特定する。そして、情報提供装置10は、特定された重要性がより高くなるように、テキスト範囲TAを徐々に拡張し、テキスト範囲TAのうち、重要性が所定の要件を満たすテキスト範囲TAに含まれるテキストを部分テキストとして抽出する。
この結果、情報提供装置10は、挨拶や定型文等といったテキストではなく、文章におけるキーワードを含むテキスト等、見出しとして適切である可能性が高いテキストを見出しの候補である部分テキストとして抽出することができる。このため、情報提供装置10は、見出しが有する特徴をモデルに学習させる精度を向上させるとともに、対象文章から抽出される見出しの精度を向上させることができる。
また、情報提供装置10は、複数のテキスト範囲TAを含むテキスト領域TRを設定し、テキスト領域TRに含まれるテキストを部分テキストとして抽出する。この結果、例えば、情報提供装置10は、見出しとして適切な部分が長い場合であっても、その部分を部分テキストとして抽出することができる。また、例えば、情報提供装置10は、テキスト領域TRに含まれるテキストのうち、テキスト範囲TAに含まれるテキストを、三点リーダ等、文章の省略を示すテキストやタイポグラフィで接続した部分テキストを抽出する。すなわち、情報提供装置10は、テキスト領域TRに含まれるテキストのうち、重要性が高いテキストを示す部分テキストを抽出する。このため、情報提供装置10は、見出しとして適切な部分が長い場合であっても、利用者が認識しやすい形式で見出しの抽出を行うことができる。
また、情報提供装置10は、学習文章が有する特徴をモデルに学習させるのではなく、学習文章から抽出された部分テキストの学習文章における重要性をモデルに学習させる。このような結果、情報提供装置10は、対象文章から抽出された部分テキストのうち見出しとして適切な部分テキストを選択するためのモデルを適切に学習することができる。
例えば、同一のテキスト若しくは類似のテキストであっても、そのテキストが含まれる文章の内容によっては、重要度が変化することが考えられる。しかしながら、情報提供装置10は、部分テキストそのものの重要性(すなわち、一般的な重要性)をモデルに学習させるのではなく、同一の学習文章から抽出された複数の部分テキストの重要性であって、その学習文章における重要性をモデルに学習させる。すなわち、情報提供装置10は、同一の文章から抽出された複数の部分テキストについて、その文章における相対的な重要性をモデルに学習させる。このような処理の結果、情報提供装置10は、文章から抽出された部分テキストのうちどの部分テキストがその文章における代表的なテキストであるか、すなわち、その文章の見出しとして相応しいかをモデルに学習させることができるので、適切な見出しを抽出するためのモデルを適切に学習させることができる。
〔1-4.抽出処理について〕
上述した情報提供装置10は、文章から部分テキストの抽出を行った。ここで、情報提供装置10は、上述した抽出手法を組み合わせてもよい。例えば、情報提供装置10は、文章を複数のエリアに分割し、分割したエリアごとに異なる手法で部分テキストの抽出を行ってもよい。例えば、情報提供装置10は、文章のうち先頭の数文については、テキスト範囲TAを徐々に拡張することで部分テキストを抽出し、文章の中央部分の数分については、文末表現で分割した部分テキストを抽出してもよい。
また、情報提供装置10は、三点リーダ以外にも、アンダーバーやハイフン等、任意のテキストやタイポグラフィを省略を示すテキストとして抽出してもよい。また、情報提供装置10は、省略を示すテキストを含めず、テキスト領域TRに含まれる全てのテキストを部分テキストとしてもよい。
また、情報提供装置10は、テキスト範囲TAやテキスト領域TRに含まれる文字数に制限を設定してもよい。例えば、情報提供装置10は、20文字以内となるように、テキスト範囲TAを設定してもよい。また、情報提供装置10は、テキスト範囲TAに含まれるテキストの数が所定の閾値以下となる場合や所定の閾値以上となる場合(例えば、5文字以下もしくは15文字以上となる場合)は、重要度にペナルティを付してもよい。
また、情報提供装置10は、重複が現れるように部分テキストの抽出を行ってもよい。例えば、情報提供装置10は、ある部分テキストと異なる部分テキストとが重複するように、部分テキストの抽出を行ってもよい。
〔1-5.学習処理について〕
上述した情報提供装置10は、同じ学習文章から抽出された部分テキストの重要性の順序をモデルに学習させた。ここで、情報提供装置10は、同じ学習文章における部分テキストの重要性の順序を学習させるのであれば、任意の形式で、重要性の順序を学習させてよい。例えば、情報提供装置10は、部分テキストのペアを生成し、各ペアにおいてどちらの部分テキストの重要性が高いかを学習させてもよい。また、情報提供装置10は、複数の部分テキストの組を生成し、各組における部分テキストの重要性の順位をモデルに学習させてもよい。また、情報提供装置10は、全ての部分テキストを入力した際に、各部分テキストの重要性の順位を出力するように、モデルの学習を行わせてもよい。
〔1-6.処理の適用対象について〕
上述した情報提供装置10は、利用者が投稿した投稿情報について、上述した抽出処理、学習処理、および選択処理を実行した。ここで、情報提供装置10は、投稿情報以外にも、任意の文章について、各処理を実行してもよい。
例えば、情報提供装置10は、歌詞に対して上述した各種の処理を実行し、新たな楽曲の歌詞の見出し(すなわち、歌詞の抜粋)を選択してもよい。すなわち、情報提供装置10は、文章に予め付与された標題とは異なり、文章中から一部のテキストを「見出し」として選択するのであれば、任意のテキストデータについて上述した処理を実行して良い。
〔1-7.装置構成について〕
なお、情報提供装置10は、複数の装置が連携して動作することで、実現されてもよい。例えば、情報提供装置10は、上述した抽出処理を実行する抽出装置と、上述した学習処理を実行する学習装置と、上述した選択処理を実行する選択装置により実現されてもよい。すなわち、上述した抽出処理、学習処理および選択処理は、それぞれ独立に実行されてもよく、連携した状態で実行されてもよい。
なお、情報提供装置10は、抽出処理により対象文章から抽出された複数の部分テキストを見出しの候補とし、クラウドソージングの技術等を用いて、見出しの候補から見出しとするテキストを選択してもよい。このような処理を行う場合であっても、情報提供装置10は、見出しとして適切な可能性が高いテキストを部分テキストとして抽出することができるので、見出しの精度を向上させることができる。
〔2.情報提供装置が有する機能構成の一例について〕
以下、上記した検出処理および配信処理を実現する情報提供装置10が有する機能構成の一例について説明する。図4は、実施形態に係る情報提供装置の構成例を示す図である。図4に示すように、情報提供装置10は、通信部20、記憶部30、および制御部40を有する。
通信部20は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部20は、ネットワークNと有線または無線で接続され、任意の装置との間での情報の送受信を行う。
記憶部30は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現されてる。また、記憶部30は、学習データデータベース31およびモデルデータベース32を記憶する。
学習データデータベース31には、モデルの学習に用いる学習データが登録される。例えば、図5は、実施形態に係る学習データデータベースに登録される情報の一例を示す図である。図5に示すように、学習データデータベースには、「テキストID(Identifier)」、「テキストデータ」、「部分テキストID」、「シード単語」、「部分テキストデータ」、および「重要度」といった項目を有する情報が登録される。
ここで、「テキストID」、学習データとなる文章の識別子、すなわち、学習文章の識別子である。また、「テキストデータ」、とは、学習文章のテキストデータである。また、「部分テキストID」、とは、対応付けられた学習文章から抽出された部分テキストを識別する識別子である。また、「シード単語」とは、部分テキストを抽出する際に選択された単語、すなわち、拡張前のテキスト範囲TAに含まれる単語である。また、「部分テキストデータ」とは、部分テキストのテキストデータである。また、「重要度」とは、対応付けられた部分テキストの、対応付けられた学習文章における重要度であり、例えば、見出しスコアである。
なお、図5に示す例では、「テキストデータ#T1」、「単語#1-1」、「部分テキストデータ#TA1」といった概念的な値を記載したが、実際には、学習文章のテキストのデータや単語のテキスト等が登録されることとなる。また、図5に示す例では、「重要度#TA1」といった概念的な値を記載したが、実際には、重要度の数値が登録されることとなる。また、図5に示す情報以外にも、学習データデータベース31には、学習データに関する任意の情報が登録されていてよい。
例えば、図5に示す例では、テキストID「T1」、テキストデータ「テキストデータ#T1」、部分テキストID「TA1」、シード単語「単語#1」、部分テキストデータ「部分テキストデータ#TA1」、および重要度「重要度TA#1」が対応付けて登録されている。このような情報は、テキストID「T1」が示す学習文章のテキストデータが「テキストデータ#T1」、である旨を示す。また、このような情報は、「テキストデータ#T1」から、部分テキストID「TA1」が示す部分テキストが選択されており、この部分テキストが、シード単語「単語#1」からテキスト範囲TAを徐々に拡張することで選択されたテキストである旨を示す。また、このような情報は、部分テキストID「TA1」が示す部分テキストのテキストデータが「部分テキストデータ#TA1」であり、重要度が「重要度TA#1」である旨を示す。
図4に戻り、説明を続ける。モデルデータベース32には、文章から抽出された複数の部分テキストの重要性であって、抽出元となる文章における重要性の順序を学習したモデルが登録される。例えば、モデルデータベース32には、上述した学習処理により学習が行われたモデルが登録される。
制御部40は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等のプロセッサによって、情報提供装置10内部の記憶装置に記憶されている各種プログラムがRAM等を作業領域として実行されることにより実現される。また、制御部40は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
図4に示すように、制御部40は、学習ユニット50、抽出ユニット60、および選択ユニット70を有する。学習ユニット50は、上述した学習処理を実行する。また、抽出ユニット60は、上述した抽出処理を実行する。また、選択ユニット70は、上述した選択処理を実行する。
例えば、学習ユニット50は、第1取得部51、および学習部52を有する。また、抽出ユニット60は、第1選択部61、設定部62、拡張部63、および抽出部64を有する。また、選択ユニット70は、第2取得部71、第2選択部72、および提供部73を有する。
第1取得部51は、学習データとなる学習文章から抽出された複数の部分テキストを取得する。より具体的には、第1取得部51は、複数の学習文章から抽出された複数の部分テキストを取得する。例えば、第1取得部51は、配信装置200から学習文章を取得する。そして、第1取得部51は、抽出ユニット60に学習文章を提供する。このような場合、抽出ユニット60は、上述した抽出処理を実行することで学習文章から部分テキストを通出する。
続いて、第1取得部51は、抽出ユニット60によって抽出された部分テキストと、学習文章とを対応付けて生成装置300に送信する。この結果、生成装置300は、各部分テキストに対して見出しスコアを付与し、情報提供装置10に対して提供する。その後、第1取得部51は、抽出ユニット60によって抽出された部分テキストと、学習文章と、見出しスコアとを対応付けて学習データデータベース31に登録する。また、第1取得部51は、たの学習文章についても同様の処理を行い、部分テキストを取得する。
学習部52は、複数の部分テキストのそれぞれについて学習文章における重要性をモデルに学習させる。より具体的には、学習部52は、同一の学習文章から抽出された複数の部分テキストの重要性の順位をモデルに学習させる。また、学習部52は、部分テキストの相対的な重要性をモデルに学習させる。
例えば、学習部52は、ペアワイズ法を用いて、学習データデータベース31に登録されている部分テキストのペアを生成する。より具体的には、学習部52は、同一の学習文章から抽出された部分テキストのペアを全ての組み合わせについて生成する。そして、学習部52は、各組み合わせについて、どちらの部分テキストの重要性がより高いかをモデルに学習させる。
例えば、学習部52は、部分テキスト#1の見出しスコアよりも部分テキスト#2の見出しスコアの方が大きい場合、部分テキスト#1の特徴量と部分テキスト#2の特徴量とをモデルに入力した際に、部分テキスト#1よりも部分テキスト#2の重要性の方が高い旨を示す値を出力ようモデルの学習を行う。なお、学習部52は、部分テキストのペアではなく、例えば、3つ以上の部分テキストの組について、学習文章における重要性の順序をモデルに学習させてもよい。
また、学習部52は、生成した各ペアについても同様の処理を実行することで、同一の学習文章から抽出された複数の部分テキストの重要性であって、その学習文章における重要性の順序をモデルに学習させることができる。その後、学習部52は、学習したモデルをモデルデータベース32に登録する。
第1選択部61は、対象文章や学習文章から所定の条件を満たす複数の単語を選択する単語選択部である。例えば、第1選択部61は、選択ユニット70から対象文章を取得した場合や、学習ユニット50から学習文章を取得した場合は、以下の処理を実行する。まず、第1選択部61は、取得した文章の形態素解析等を実行し、文章に含まれる各単語を特定する。そして、第1選択部61は、特定した単語の中から所定の条件を満たす単語をシード単語として特定する。
例えば、第1選択部61は、TF-IDFスコアが所定の閾値を超える単語、所定の品位の単語等、文章における統計的な解析結果に基づく重要度が所定の閾値を超える単語を選択する。なお、第1選択部61は、各単語の距離、文末表現により分割される各文章に含まれる単語の数等に基づいて、単語の選択を行ってもよい。
設定部62は、選択された単語を含む範囲を設定する。例えば、設定部62は、文章のうち第1選択部61によって選択されたシード単語を含むテキスト範囲TAを設定する。また、設定部62は、複数のテキスト範囲TAを含むテキスト領域TRを設定する。例えば、設定部62は、距離が所定の閾値以下となる複数のテキスト範囲TAを含むテキスト領域TRを設定してもよい。
拡張部63は、テキスト範囲TAに含まれるテキストの重要性であって、文章に含まれるテキストの統計的な解析結果に基づく重要性が高くなるように、テキスト範囲TAを拡張する。また、拡張部63は、テキスト範囲TAに含まれるテキストが所定の文章構造を有するように、テキスト範囲TAを拡張する。また、拡張部63は、文章に含まれるテキストの出現頻度に基づく重要性が高くなるように、テキスト範囲TAを拡張する。例えば、拡張部63は、キーワード抽出に基づくスコア又はTF-IDFに基づくスコアに基づいて、テキスト範囲TAに含まれるテキストの重要性を特定し、特定した重要性が高くなるように、各範囲を拡張する。
例えば、拡張部63は、テキスト範囲TAに含まれるテキストについて、TF-IDFスコアやキーワード抽出に基づくスコア等に基づいて、統計スコアを算出する。また、拡張部63は、テキスト範囲TAに含まれているテキストが有する文章構造に基づいて、文章構造スコアを算出する。そして、拡張部63は、統計スコアと文章構造スコアとから重要度を算出する。なお、拡張部63は、テキスト範囲TA同士の距離に基づくペナルティ等をさらに考慮した重要度を算出してもよい。
また、拡張部63は、テキスト範囲TAを所定の条件に基づいて拡張し、拡張後のテキスト範囲TAの重要度を算出する。そして、拡張部63は、拡張後のテキスト範囲TAの重要度が、拡張前のテキスト範囲TAの重要度を超えている場合は、拡張後のテキスト範囲TAを新たなテキスト範囲TAとして採用する。また、拡張部63は、上述した処理を繰り返し実行する。
抽出部64は、拡張されたテキスト範囲TAに含まれるテキストのうち、重要性が所定の条件を満たすテキストを、文章の内容を示すテキストの候補、すなわち、見出しの候補である部分テキストとして抽出する。また、抽出部64は、テキスト領域TRのうち、内包される複数のテキスト範囲TAの重要性が所定の条件を満たすテキスト領域TRを特定し、特定したテキスト領域TRに含まれるテキストを、文章の内容を示すテキストの候補、すなわち部分テキストとして抽出する。また、抽出部64は、テキスト領域Trに含まれるテキストのうち、複数のテキスト範囲TAに含まれるテキスト以外のテキストを、テキストの省略を示す所定のテキストやタイポグラフィに置き換えたテキストを、文章の内容を示すテキストの候補として抽出する。
例えば、抽出部64は、テキスト範囲TA若しくはテキスト領域TRから、重要度が高い方から順に所定の数のテキスト範囲TA若しくはテキスト領域TRを選択する。そして、抽出部64は、文章のうち、選択されたテキスト範囲TA若しくはテキスト領域TRに含まれるテキストを部分テキストとして抽出する。ここで、抽出部64は、テキスト領域TRに含まれるテキストを抽出する場合、テキスト領域TRに含まれるテキスト範囲TAを特定し、特定したテキスト範囲TAに含まれるテキストを抽出する。そして、抽出部64は、抽出したテキストの前後に三点リーダ等、テキストの省略を示すテキストやタイポグラフィを付加したテキストを生成し、生成したテキストをテキスト領域TRに含まれるテキストとする。
第2取得部71は、対象文章から抽出された複数の部分テキストを取得する。例えば、第2取得部71は、配信装置200から対象文章を取得すると、取得した対象文章を抽出ユニット60に提供し、対象文章から部分テキストを抽出させる。すなわち、第2取得部71は、拡張されたテキスト範囲TAに含まれるテキストのうち、重要性が所定の条件を満たすテキストを、部分テキストとして取得する。
また、第2取得部72は、テキスト領域TRのうち、内包される複数のテキスト範囲TAの重要性が所定の条件を満たすテキスト領域TRに含まれるテキストを、部分テキストとして取得する。例えば、第2取得部72は、テキスト領域TRに含まれるテキストのうち、複数のテキストTA範囲に含まれるテキスト以外のテキストを、テキストの省略を示す所定のテキストやタイポグラフィに置き換えたテキストを、部分テキストとして取得する。
第2選択部72は、学習文章から抽出された複数の部分テキストのそれぞれについて学習文章における重要性を学習したモデルを用いて、対象文章から抽出された複数の部分テキストのうち、対象文章における重要性がより高い部分テキストを選択する選択部である。より具体的には、第2選択部72は、対象文章の見出しとして、部分テキストの中から重要性がより高い部分テキストを選択する。例えば、第2選択部72は、同一の学習文章から抽出された複数の部分テキストの重要性の順位を学習したモデルを用いて、対象文章から抽出された複数の部分テキストのうち、対象文章における重要性がより高い部分テキストを選択する。
また、第2選択部72は、同一の学習文章から抽出された部分テキストの相対的な重要性を学習したモデルを用いて、対象文章から抽出された複数の部分テキストのうち、対象文章における重要性がより高い部分テキストを選択する。また、第2選択部72は、同一の学習文章から抽出された部分テキストのペアのうちどちらの重要性がより高いかを学習したモデルを用いて、対象文章から抽出された複数の部分テキストのうち、対象文章における重要性がより高い部分テキストを選択する。また、第2選択部72は、複数の学習文章について、同一の学習文章から抽出された部分テキストのペアのうちどちらの重要性がより高いかを学習したモデルを用いて、対象文章から抽出された複数の部分テキストのうち、対象文章における重要性がより高い部分テキストを選択する。
例えば、第2選択部72は、モデルデータベース32から学習ユニット50により学習が行われたモデルを読み出す。また、第2選択部72は、対象文章から抽出された部分テキストの特徴量を生成し、生成した特徴量をモデルに入力することで、各部分テキストの重要性の順序を推定する。例えば、部分テキストの特徴量のペアを入力された際にいずれの部分テキストの重要性がより高いかを出力するようにモデルが学習されている場合、第2選択部72は、対象文章から抽出された部分テキストのペアを生成し、生成したペアごとに部分テキストの特徴量をモデルに入力することで、各ペアごとに、部分テキストの相対的な重要性の関係を特定する。そして、第2選択部72は、特定した重要性の関係に基づいて、最も重要性が高い部分テキストを選択する。
提供部73は、選択された部分テキストを対象文章の見出しとして提供する。例えば、提供部73は、配信装置200に対し、第2選択部72が選択した部分テキストを見出しとして提供する。
〔3.情報提供装置が実行する処理の流れについて〕
次に、図6~8を用いて、情報提供装置10が実行する処理の流れの一例について説明する。まず、図6を用いて、情報提供装置10が実行する抽出処理の流れの一例を説明する。図6は、実施形態に係る情報提供装置が実行する抽出処理の流れの一例を示すフローチャートである。
まず、情報提供装置10は、文章を受付けると(ステップS101)、文章に含まれる単語を特定する(ステップS102)。そして、情報提供装置10は、特定した各単語を含むテキスト範囲TAを設定し(ステップS103)、各テキスト範囲TAに含まれるテキストの統計的な解析結果に基づく重要性が高くなるように、テキスト範囲TAの拡張を行う(ステップS104)。そして、情報提供装置10は、重要性が所定の条件を満たすテキスト範囲TAに含まれるテキストを部分テキストとして出力し(ステップS105)、処理を終了する。
続いて、図7を用いて、情報提供装置10が実行する学習処理の流れの一例を説明する。図7は、実施形態に係る情報提供装置が実行する学習処理の流れの一例を示すフローチャートである。
まず、情報提供装置10は、学習文章の部分テキストを取得する(ステップS201)。例えば、情報提供装置10は、図6に示した抽出処理を実行することで、学習文章から部分テキストを抽出する。例えば、情報提供装置10は、各部分テキストが見出しとして相応しいかを示す見出しスコアを取得する(ステップS202)。例えば、情報提供装置10は、クラウドソージング等の手法を用いて、各部分テキストの見出しスコアを取得する。そして、情報提供装置10は、ランク学習により、学習文章における各部分テキストの相対的な重要性をモデルに学習させ(ステップS203)、処理を終了する。
続いて、図8を用いて、情報提供装置10が実行する選択処理の流れの一例を説明する。図8は、実施形態に係る情報提供装置が実行する選択処理の流れの一例を示すフローチャートである。
まず、情報提供装置10は、対象文章の部分テキストを取得する(ステップS301)。例えば、情報提供装置10は、図6に示した抽出処理を実行することで、対象文章から部分テキストを抽出する。例えば、情報提供装置10は、学習文章から抽出された各部分テキストの学習文章における重要性を学習したモデルを用いて、対象文章の部分テキストのうち重要性が高いものを選択する(ステップS302)。例えば、情報提供装置10は、図7に示した学習処理により学習が行われたモデルを用いて、対象文章の部分テキストのうち相対的な重要性が最も高い部分テキストを選択する。そして、情報提供装置10は、選択した部分テキストを見出しとなる部分テキストとして出力し(ステップS303)、処理を終了する。
〔4.変形例〕
上記では、情報提供装置10による抽出処理、学習処理および選択処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、情報提供装置10が実行する処理のバリエーションについて説明する。
〔4-1.各処理の連携について〕
情報提供装置10は、上述した各処理を単独で実行してもよく、それぞれ連携させてもよい。例えば、情報提供装置10は、抽出処理において単語を選択する際や、テキスト範囲TAを拡張させる際の指標として、クラウドソージングにより付与された見出しスコアの傾向を考慮してもよい。例えば、情報提供装置10は、見出しスコアが高くなる傾向を有する文字数の範囲を特定し、特定した範囲に収まるように、テキスト範囲TAを拡張させてもよい。また、情報提供装置10は、テキスト範囲TAに含まれるテキストの特徴量が、見出しスコアが高い部分テキストの特徴量に近づくように、テキスト範囲TAの拡張を行ってもよい。
〔4-2.装置構成〕
記憶部30に登録された各データベース31、32は、外部のストレージサーバに保持されていてもよい。また、情報提供装置10は、抽出処理を実行する抽出サーバ、学習処理を実行する学習サーバ、および選択処理を実行する選択サーバとが連携して動作することにより、実現されてもよい。このような場合、学習サーバには図2に示す学習ユニット50が配置され、抽出サーバには抽出ユニット60が配置され、選択サーバには選択ユニット70が配置されていればよい。
〔4-3.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、逆に、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
また、上記してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
〔4-4.プログラム〕
また、上述した実施形態に係る情報提供装置10は、例えば図9に示すような構成のコンピュータ1000によって実現される。図9は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
演算装置1030は、一次記憶装置1040や二次記憶装置1050に格納されたプログラムや入力装置1020から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置1040は、RAM等、演算装置1030が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置1050は、演算装置1030が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ROM(Read Only Memory)、HDD(Hard Disk Drive)、フラッシュメモリ等により実現される。
出力IF1060は、モニタやプリンタといった各種の情報を出力する出力装置1010に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、USB(Universal Serial Bus)やDVI(Digital Visual Interface)、HDMI(登録商標)(High Definition Multimedia Interface)といった規格のコネクタにより実現される。また、入力IF1070は、マウス、キーボード、およびスキャナ等といった各種の入力装置1020から情報を受信するためのインタフェースであり、例えば、USB等により実現される。
なお、入力装置1020は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置1020は、USBメモリ等の外付け記憶媒体であってもよい。
ネットワークIF1080は、ネットワークNを介して他の機器からデータを受信して演算装置1030へ送り、また、ネットワークNを介して演算装置1030が生成したデータを他の機器へ送信する。
演算装置1030は、出力IF1060や入力IF1070を介して、出力装置1010や入力装置1020の制御を行う。例えば、演算装置1030は、入力装置1020や二次記憶装置1050からプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行する。
例えば、コンピュータ1000が情報提供装置10として機能する場合、コンピュータ1000の演算装置1030は、一次記憶装置1040上にロードされたプログラムまたはデータ(例えば、モデルM1)を実行することにより、制御部40の機能を実現する。コンピュータ1000の演算装置1030は、これらのプログラムまたはデータ(例えば、モデルM1)を一次記憶装置1040から読み取って実行するが、他の例として、他の装置からネットワークNを介してこれらのプログラムを取得してもよい。
〔5.効果〕
上述したように、情報提供装置10は、処理対象となる対象文章から抽出された複数の部分テキストを取得する。そして、情報提供装置10は、学習データとなる学習文章から抽出された複数の部分テキストのそれぞれについてその学習文章における重要性を学習したモデルを用いて、対象文章から取得された複数の部分テキストのうち対象文章における重要性がより高い部分テキストを選択する。また、情報提供装置10は、部分テキストを、対象文章の見出しとして選択する。このような処理の結果、情報提供装置10は、対象文章における重要性が高い部分テキストを見出しとして選択できるので、適切な見出しを選択することができる。
また、情報提供装置10は、モデルとして、同一の学習文章から抽出された複数の部分テキストの重要性の順位を学習したモデルを用いて、取得部により取得された複数の部分テキストのうち、対象文章における重要性がより高い部分テキストを選択する。また、情報提供装置10は、モデルとして、同一の学習文章から抽出された部分テキストの相対的な重要性を学習したモデルを用いて、対象文章から抽出された複数の部分テキストのうち、対象文章における重要性がより高い部分テキストを選択する。また、情報提供装置10は、モデルとして、同一の学習文章から抽出された部分テキストのペアのうちどちらの重要性がより高いかを学習したモデルを用いて、対象文章から抽出された複数の部分テキストのうち、対象文章における重要性がより高い部分テキストを選択する。
また、情報提供装置10は、モデルとして、複数の学習文章について、同一の学習文章から抽出された部分テキストのペアのうちどちらの重要性がより高いかを学習したモデルを用いて、取得された複数の部分テキストのうち、対象文章における重要性がより高い部分テキストを選択する。このように、情報提供装置10は、文章内における部分テキストの相対的な重要度であって、抽出元となる文章における重要度の順序を学習したモデルを用いて、見出しとなる部分テキストを選択するので、適切な部分テキストを見出しとして選択できる。
また、情報提供装置10は、対象文章から所定の条件を満たす複数の単語を選択し、選択された単語を含むテキスト範囲TAを設定する。また、情報提供装置10は、テキスト範囲TAに含まれるテキストの重要性であって、対象文章に含まれるテキストの統計的な解析結果に基づく重要性が高くなるように、設定されたテキスト範囲TAを拡張する。そして、情報提供装置10は、拡張されたテキスト範囲TAに含まれるテキストのうち、重要性が所定の条件を満たすテキストを、部分テキストとして取得する。
また、情報提供装置10は、テキスト範囲TAに含まれるテキストが所定の文章構造を有するように、そのテキスト範囲TAを拡張する。また、情報提供装置10は、対象文章に含まれるテキストの出現頻度に基づく重要性が高くなるように、テキスト範囲TAを拡張する。また、情報提供装置10は、キーワード抽出に基づくスコア又はTF-IDFに基づくスコアに基づいて、テキスト範囲TAに含まれるテキストの重要性を特定し、特定した重要性が高くなるように、各テキスト範囲TAを拡張する。このように、情報提供装置10は、対象文章のうち見出しとして適切な部分を見出しの候補として抽出するので、適切な部分テキストを見出しとして選択できる。
また、情報提供装置10は、複数のテキスト範囲TAを含むテキスト領域TRを設定し、テキスト領域TRのうち、そのテキスト領域TRに含まれる複数のテキスト範囲TAの重要性が所定の条件を満たすテキスト領域TRを特定し、特定したテキスト領域TRに含まれるテキストを、部分テキストとして取得する。また、情報提供装置10は、テキスト領域TRに含まれるテキストのうち、複数のテキスト範囲TAに含まれるテキスト以外のテキストを、テキストの省略を示す所定のテキストやタイポグラフィに置き換えたテキストを、部分テキストとして取得する。これらの処理の結果、情報提供装置10は、複数のテキスト範囲を含む部分テキストを抽出することができるので、文章の内容をより明確に示すテキストを見出しとして選択することができる。
また、情報提供装置10は、学習データとなる学習文章から抽出された複数の部分テキストを取得し、複数の部分テキストのそれぞれについてその学習文章における重要性をモデルに学習させる。この結果、情報提供装置10は、文章に含まれる部分テキストの相対的な重要性であって、その文章における重要性の順序を学習したモデルを実現するので、文章に含まれるテキストのうち、他のテキストよりもその文章における相対的な重要性が高いテキスト、すなわち、見出しとして適切なテキストの選択を実現することができる。
また、情報提供装置10は、同一の学習文章から抽出された複数の部分テキストの重要性の順位をモデルに学習させる。また、情報提供装置10は、部分テキストの相対的な重要性をモデルに学習させる。また、情報提供装置10は、部分テキストのペアを複数生成し、生成したペアに含まれる部分テキストのうちどちらの重要性がより高いかをモデルに学習させる。また、情報提供装置10は、複数の学習文章から抽出された複数の部分テキストを取得し、同一の学習文章から抽出された部分テキストのペアを複数生成し、生成したペアに含まれる部分テキストのうちどちらの重要性がより高いかをモデルに学習させる。このような処理の結果、情報提供装置10は、モデルに対し、ある文章に含まれるテキストの重要性の順序であって、その文章における重要性の順序を学習させることができるので、例えば、対象文章に含まれるテキストのうち見出しとして適切なテキストを選択するためのモデルを精度良く学習させることができる。
また、情報提供装置10は、文章から所定の条件を満たす複数の単語を選択し、選択された単語を含むテキスト範囲TAを設定する。また、情報提供装置10は、テキスト範囲TAに含まれるテキストの重要性であって、文章に含まれるテキストの統計的な解析結果に基づく重要性が高くなるように、テキスト範囲TAを拡張する。そして、情報提供装置10は、拡張されたテキスト範囲TAに含まれるテキストのうち、重要性が所定の条件を満たすテキストを、文章の内容を示すテキストの候補として抽出する。このため、情報提供装置10は、文章の見出しとして適切である可能性が高い部分テキストを抽出することができるので、適切な見出しの選択を補助することができる。
また、情報提供装置10は、テキスト範囲TAに含まれるテキストが所定の文章構造を有するように、テキスト範囲TAを拡張する。また、情報提供装置10は、文章に含まれるテキストの出現頻度に基づく重要性が高くなるように、テキスト範囲TAを拡張する。また、情報提供装置10は、キーワード抽出に基づくスコア又はTF-IDFに基づくスコアに基づいて、テキスト範囲TAに含まれるテキストの重要性を特定し、特定した重要性が高くなるように、各テキスト範囲TAを拡張する。
また、情報提供装置10は、複数のテキスト範囲TAを含むテキスト領域TRを設定し、テキスト領域TRのうち、そのテキスト領域TRに含まれる複数のテキスト範囲TAの重要性が所定の条件を満たすテキスト領域TRを特定し、特定したテキスト領域TRに含まれるテキストを、文章の内容を示すテキストの候補として抽出する。また、情報提供装置10は、テキスト領域TRに含まれるテキストのうち、複数のテキスト範囲TAに含まれるテキスト以外のテキストを、テキストの省略を示す所定のテキストやタイポグラフィに置き換えたテキストを、文章の内容を示すテキストの候補として抽出する。また、情報提供装置10は、テキストを、文章の見出しの候補として抽出する。このような処理の結果、情報提供装置10は、適切な見出しの選択を補助することができる。
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
また、上記してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、検出部は、検出手段や検出回路に読み替えることができる。
10 情報提供装置
20 通信部
30 記憶部
31 学習データデータベース
32 モデルデータベース
40 制御部
50 学習ユニット
51 第1取得部
52 学習部
60 抽出ユニット
61 第1選択部
62 設定部
63 拡張部
64 抽出部
70 選択ユニット
71 第2取得部
72 第2選択部
73 提供部
100 端末装置
200 配信装置
300 生成装置

Claims (27)

  1. 対象文章から所定の条件を満たす複数の単語を選択する単語選択部と、
    それぞれ前記単語選択部により選択された単語を含む複数の範囲を含むテキスト領域を設定する設定部と、
    前記範囲に含まれるテキストの重要性であって、前記対象文章に含まれるテキストの統計的な解析結果に基づく重要性が高くなるように、前記設定部により設定された範囲を拡張する拡張部と、
    前記拡張部により拡張された領域を含むテキスト領域のうち、当該テキスト領域に含まれる複数の範囲の重要性が所定の条件を満たすテキスト領域を特定し、特定したテキスト領域に含まれるテキストを、部分テキストとして取得する取得部と、
    前記取得部により学習データとなる学習文章から抽出された複数の部分テキストのそれぞれについて当該学習文章における重要性を学習したモデルを用いて、前記取得部により取得された複数の部分テキストのうち、前記対象文章における重要性がより高い部分テキストを選択する選択部と
    を有することを特徴とする選択装置。
  2. 前記選択部は、前記モデルとして、同一の学習文章から抽出された複数の部分テキストの重要性の順位を学習したモデルを用いて、前記取得部により取得された複数の部分テキストのうち、前記対象文章における重要性がより高い部分テキストを選択する
    ことを特徴とする請求項1に記載の選択装置。
  3. 前記選択部は、前記モデルとして、同一の学習文章から抽出された前記部分テキストの相対的な重要性を学習したモデルを用いて、前記取得部により取得された複数の部分テキストのうち、前記対象文章における重要性がより高い部分テキストを選択する
    ことを特徴とする請求項1または2に記載の選択装置。
  4. 前記選択部は、前記モデルとして、同一の学習文章から抽出された前記部分テキストのペアのうちどちらの重要性がより高いかを学習したモデルを用いて、前記取得部により取得された複数の部分テキストのうち、前記対象文章における重要性がより高い部分テキストを選択する
    ことを特徴とする請求項1~3のうちいずれか1つに記載の選択装置。
  5. 前記選択部は、前記モデルとして、複数の学習文章について、同一の学習文章から抽出された前記部分テキストのペアのうちどちらの重要性がより高いかを学習したモデルを用いて、前記取得部により取得された複数の部分テキストのうち、前記対象文章における重要性がより高い部分テキストを選択する
    ことを特徴とする請求項1~4のうちいずれか1つに記載の選択装置。
  6. 前記拡張部は、前記範囲に含まれるテキストが所定の文章構造を有するように、当該範囲を拡張する
    ことを特徴とする請求項1~5のうちいずれか1つに記載の選択装置。
  7. 前記拡張部は、前記対象文章に含まれるテキストの出現頻度に基づく重要性が高くなるように、前記設定部により設定された範囲を拡張する
    ことを特徴とする請求項1~6のうちいずれか1つに記載の選択装置。
  8. 前記拡張部は、キーワード抽出に基づくスコア又はTF-IDF(Term Frequency-Inverse Document Frequency)に基づくスコアに基づいて、前記範囲に含まれるテキストの前記重要性を特定し、特定した重要性が高くなるように、各範囲を拡張する
    ことを特徴とする請求項1~7のうちいずれか1つに記載の選択装置。
  9. 前記取得部は、前記テキスト領域に含まれるテキストのうち、前記複数の範囲に含まれるテキスト以外のテキストを、テキストの省略を示す所定のテキスト若しくはタイポグラフィに置き換えたテキストを、前記部分テキストとして取得する
    ことを特徴とする請求項1~8のうちいずれか1つに記載の選択装置。
  10. 前記選択部は、前記部分テキストを、前記対象文章の見出しとして選択する
    ことを特徴とする請求項1~のうちいずれか1つに記載の選択装置。
  11. 対象文章から所定の条件を満たす複数の単語を選択する単語選択部と、
    それぞれ前記単語選択部により選択された単語を含む複数の範囲を含むテキスト領域を設定する設定部と、
    前記範囲に含まれるテキストの重要性であって、前記対象文章に含まれるテキストの統計的な解析結果に基づく重要性が高くなるように、前記設定部により設定された範囲を拡張する拡張部と、
    前記拡張部により拡張された領域を含むテキスト領域のうち、当該テキスト領域に含まれる複数の範囲の重要性が所定の条件を満たすテキスト領域を特定し、特定したテキスト領域に含まれるテキストを、部分テキストとして取得する取得部と、
    前記取得部により学習データとなる学習文章から抽出された複数の部分テキストのそれぞれについて当該学習文章における重要性をモデルに学習させる学習部と
    を有することを特徴とする学習装置。
  12. 前記学習部は、同一の学習文章から抽出された複数の部分テキストの重要性の順位を前記モデルに学習させる
    ことを特徴とする請求項1に記載の学習装置。
  13. 前記学習部は、前記部分テキストの相対的な重要性をモデルに学習させる
    ことを特徴とする請求項1または1に記載の学習装置。
  14. 前記学習部は、前記部分テキストのペアを複数生成し、生成したペアに含まれる部分テキストのうちどちらの重要性がより高いかを前記モデルに学習させる
    ことを特徴とする請求項1~1のうちいずれか1つに記載の学習装置。
  15. 前記取得部は、複数の学習文章から抽出された複数の部分テキストを取得し、
    前記学習部は、同一の学習文章から抽出された部分テキストのペアを複数生成し、生成したペアに含まれる部分テキストのうちどちらの重要性がより高いかを前記モデルに学習させる
    ことを特徴とする請求項1~1のうちいずれか1つに記載の学習装置。
  16. 文章から所定の条件を満たす複数の単語を選択する単語選択部と、
    前記単語選択部により選択された単語を含む範囲を設定する設定部と、
    前記範囲に含まれるテキストの重要性であって、前記文章に含まれるテキストの統計的な解析結果に基づく重要性が高くなるように、前記設定部により設定された範囲を拡張する拡張部と、
    前記拡張部により拡張された範囲に含まれるテキストのうち、前記重要性が所定の条件を満たすテキストを、前記文章の内容を示すテキストの候補として抽出する抽出部と
    を有し、
    前記設定部は、複数の範囲を含むテキスト領域を設定し、
    前記抽出部は、前記テキスト領域のうち、当該テキスト領域に含まれる複数の範囲の重要性が所定の条件を満たすテキスト領域を特定し、特定したテキスト領域に含まれるテキストを、前記文章の内容を示すテキストの候補として抽出する
    ことを特徴とする抽出装置。
  17. 前記拡張部は、前記範囲に含まれるテキストが所定の文章構造を有するように、当該範囲を拡張する
    ことを特徴とする請求項1に記載の抽出装置。
  18. 前記拡張部は、前記文章に含まれるテキストの出現頻度に基づく重要性が高くなるように、前記設定部により設定された範囲を拡張する拡張部と、
    ことを特徴とする請求項1または17に記載の抽出装置。
  19. 前記拡張部は、キーワード抽出に基づくスコア又はTF-IDF(Term Frequency-Inverse Document Frequency)に基づくスコアに基づいて、前記範囲に含まれるテキストの前記重要性を特定し、特定した重要性が高くなるように、各範囲を拡張する
    ことを特徴とする請求項18に記載の抽出装置。
  20. 前記抽出部は、前記テキスト領域に含まれるテキストのうち、前記複数の範囲に含まれるテキスト以外のテキストを、テキストの省略を示す所定のテキスト若しくはタイポグラフィに置き換えたテキストを、前記文章の内容を示すテキストの候補として抽出する
    ことを特徴とする請求項16~19のうちいずれか1つに記載の抽出装置。
  21. 前記抽出部は、前記テキストを、前記文章の見出しの候補として抽出する
    ことを特徴とする請求項1~2のうちいずれか1つに記載の抽出装置。
  22. 選択装置が実行する選択方法であって、
    対象文章から所定の条件を満たす複数の単語を選択する単語選択工程と、
    それぞれ前記単語選択工程により選択された単語を含む複数の範囲を含むテキスト領域を設定する設定工程と、
    前記範囲に含まれるテキストの重要性であって、前記対象文章に含まれるテキストの統計的な解析結果に基づく重要性が高くなるように、前記設定工程により設定された範囲を拡張する拡張工程と、
    前記拡張工程により拡張された領域を含むテキスト領域のうち、当該テキスト領域に含まれる複数の範囲の重要性が所定の条件を満たすテキスト領域を特定し、特定したテキスト領域に含まれるテキストを、部分テキストとして取得する取得工程と、
    前記取得工程により学習データとなる学習文章から抽出された複数の部分テキストのそれぞれについて当該学習文章における重要性を学習したモデルを用いて、前記取得工程により取得された複数の部分テキストのうち、前記対象文章における重要性がより高い部分テキストを選択するテキスト選択工程と
    を含むことを特徴とする選択方法。
  23. 対象文章から所定の条件を満たす複数の単語を選択する単語選択手順と、
    それぞれ前記単語選択手順により選択された単語を含む複数の範囲を含むテキスト領域を設定する設定手順と、
    前記範囲に含まれるテキストの重要性であって、前記対象文章に含まれるテキストの統計的な解析結果に基づく重要性が高くなるように、前記設定手順により設定された範囲を拡張する拡張手順と、
    前記拡張手順により拡張された領域を含むテキスト領域のうち、当該テキスト領域に含まれる複数の範囲の重要性が所定の条件を満たすテキスト領域を特定し、特定したテキスト領域に含まれるテキストを、部分テキストとして取得する取得手順と、
    前記取得手順により学習データとなる学習文章から抽出された複数の部分テキストのそれぞれについて当該学習文章における重要性を学習したモデルを用いて、前記取得手順により取得された複数の部分テキストのうち、前記対象文章における重要性がより高い部分テキストを選択するテキスト選択手順と
    をコンピュータに実行させるための選択プログラム。
  24. 学習装置が実行する学習方法であって、
    対象文章から所定の条件を満たす複数の単語を選択する単語選択工程と、
    それぞれ前記単語選択工程により選択された単語を含む複数の範囲を含むテキスト領域を設定する設定工程と、
    前記範囲に含まれるテキストの重要性であって、前記対象文章に含まれるテキストの統計的な解析結果に基づく重要性が高くなるように、前記設定工程により設定された範囲を拡張する拡張工程と、
    前記拡張工程により拡張された領域を含むテキスト領域のうち、当該テキスト領域に含まれる複数の範囲の重要性が所定の条件を満たすテキスト領域を特定し、特定したテキスト領域に含まれるテキストを、部分テキストとして取得する取得工程と、
    前記取得工程により学習データとなる学習文章から抽出された複数の部分テキストのそれぞれについて当該学習文章における重要性をモデルに学習させる学習工程と
    を含むことを特徴とする学習方法。
  25. 対象文章から所定の条件を満たす複数の単語を選択する単語選択手順と、
    それぞれ前記単語選択手順により選択された単語を含む複数の範囲を含むテキスト領域を設定する設定手順と、
    前記範囲に含まれるテキストの重要性であって、前記対象文章に含まれるテキストの統計的な解析結果に基づく重要性が高くなるように、前記設定手順により設定された範囲を拡張する拡張手順と、
    前記拡張手順により拡張された領域を含むテキスト領域のうち、当該テキスト領域に含まれる複数の範囲の重要性が所定の条件を満たすテキスト領域を特定し、特定したテキスト領域に含まれるテキストを、部分テキストとして取得する取得手順と、
    前記取得手順により学習データとなる学習文章から抽出された複数の部分テキストのそれぞれについて当該学習文章における重要性をモデルに学習させる学習手順と
    をコンピュータに実行させるための学習プログラム。
  26. 抽出装置が実行する抽出方法であって、
    文章から所定の条件を満たす複数の単語を選択する単語選択工程と、
    前記単語選択工程により選択された単語を含む範囲を設定する設定工程と、
    前記範囲に含まれるテキストの重要性であって、前記文章に含まれるテキストの統計的な解析結果に基づく重要性が高くなるように、前記設定工程により設定された範囲を拡張する拡張工程と、
    前記拡張工程により拡張された範囲に含まれるテキストのうち、前記重要性が所定の条件を満たすテキストを、前記文章の内容を示すテキストの候補として抽出する抽出工程と
    を含み、
    前記設定工程は、複数の範囲を含むテキスト領域を設定し、
    前記抽出工程は、前記テキスト領域のうち、当該テキスト領域に含まれる複数の範囲の重要性が所定の条件を満たすテキスト領域を特定し、特定したテキスト領域に含まれるテキストを、前記文章の内容を示すテキストの候補として抽出する
    ことを特徴とする抽出方法。
  27. 文章から所定の条件を満たす複数の単語を選択する単語選択手順と、
    前記単語選択手順により選択された単語を含む範囲を設定する設定手順と、
    前記範囲に含まれるテキストの重要性であって、前記文章に含まれるテキストの統計的な解析結果に基づく重要性が高くなるように、前記設定手順により設定された範囲を拡張する拡張手順と、
    前記拡張手順により拡張された範囲に含まれるテキストのうち、前記重要性が所定の条件を満たすテキストを、前記文章の内容を示すテキストの候補として抽出する抽出手順と
    をコンピュータに実行させるための抽出プログラムであって、
    前記設定手順は、複数の範囲を含むテキスト領域を設定し、
    前記抽出手順は、前記テキスト領域のうち、当該テキスト領域に含まれる複数の範囲の重要性が所定の条件を満たすテキスト領域を特定し、特定したテキスト領域に含まれるテキストを、前記文章の内容を示すテキストの候補として抽出する
    ことを特徴とする抽出プログラム。
JP2018117093A 2018-06-20 2018-06-20 選択装置、学習装置、抽出装置、選択方法、学習方法、抽出方法、選択プログラム、学習プログラム、および抽出プログラム Active JP7034015B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018117093A JP7034015B2 (ja) 2018-06-20 2018-06-20 選択装置、学習装置、抽出装置、選択方法、学習方法、抽出方法、選択プログラム、学習プログラム、および抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018117093A JP7034015B2 (ja) 2018-06-20 2018-06-20 選択装置、学習装置、抽出装置、選択方法、学習方法、抽出方法、選択プログラム、学習プログラム、および抽出プログラム

Publications (2)

Publication Number Publication Date
JP2019219932A JP2019219932A (ja) 2019-12-26
JP7034015B2 true JP7034015B2 (ja) 2022-03-11

Family

ID=69096614

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018117093A Active JP7034015B2 (ja) 2018-06-20 2018-06-20 選択装置、学習装置、抽出装置、選択方法、学習方法、抽出方法、選択プログラム、学習プログラム、および抽出プログラム

Country Status (1)

Country Link
JP (1) JP7034015B2 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009122807A (ja) 2007-11-13 2009-06-04 Nomura Securities Co Ltd 連想検索システム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009122807A (ja) 2007-11-13 2009-06-04 Nomura Securities Co Ltd 連想検索システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
川場 真理子 外3名,文脈的特徴を用いたランキング学習によるブログからの主題抽出,第3回データ工学と情報マネジメントに関するフォーラム 論文集 [online],日本,電子情報通信学会データ工学専門委員会,2011年07月27日,pp.1-6

Also Published As

Publication number Publication date
JP2019219932A (ja) 2019-12-26

Similar Documents

Publication Publication Date Title
Welleck et al. Dialogue natural language inference
da Silva et al. Using unsupervised information to improve semi-supervised tweet sentiment classification
JP6381775B2 (ja) 情報処理システム及び情報処理方法
CN110325986A (zh) 文章处理方法、装置、服务器及存储介质
JP2012027845A (ja) 情報処理装置、関連文提供方法、及びプログラム
US20200074013A1 (en) System and method for automatically generating articles of a product
US11023503B2 (en) Suggesting text in an electronic document
JP6767342B2 (ja) 検索装置、検索方法および検索プログラム
US20210103622A1 (en) Information search method, device, apparatus and computer-readable medium
CN110717038B (zh) 对象分类方法及装置
US20150205860A1 (en) Information retrieval device, information retrieval method, and information retrieval program
JP2020091857A (ja) 電子文書の分類
JP6605410B2 (ja) 感情要因推定支援装置、感情要因推定支援方法及び感情要因推定支援用プログラム
US9058328B2 (en) Search device, search method, search program, and computer-readable memory medium for recording search program
JP6746472B2 (ja) 生成装置、生成方法および生成プログラム
JP7034015B2 (ja) 選択装置、学習装置、抽出装置、選択方法、学習方法、抽出方法、選択プログラム、学習プログラム、および抽出プログラム
JP7212642B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP6310529B1 (ja) 検索装置、検索方法および検索プログラム
JP6178480B1 (ja) データ分析システム、その制御方法、プログラム、及び、記録媒体
KR20200109515A (ko) 빅데이터를 이용한 교육 콘텐츠 생성 방법
Sariki et al. A book recommendation system based on named entities
KR20070118154A (ko) 정보 처리 장치 및 방법, 및 프로그램 기록 매체
JP7057229B2 (ja) 評価装置、評価方法および評価プログラム
JP6723897B2 (ja) 抽出装置、学習装置、抽出方法、抽出プログラム、学習方法および学習プログラム
JP7244449B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20180720

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200819

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210625

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210629

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210830

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220301

R150 Certificate of patent or registration of utility model

Ref document number: 7034015

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350