JP6373243B2

JP6373243B2 - 情報処理装置、情報処理方法および情報処理プログラム

Info

Publication number: JP6373243B2
Application number: JP2015226736A
Authority: JP
Inventors: 賢太郎西; 陽本谷; 井関　洋平; 洋平井関; 淳基寺山; 渉祐川▲崎▼
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2015-11-19
Filing date: 2015-11-19
Publication date: 2018-08-15
Anticipated expiration: 2035-11-19
Also published as: JP2017097488A

Description

本発明は、情報処理装置、情報処理方法および情報処理プログラムに関する。

近年、用語の解説を提示する技術が知られている。例えば、このような技術では、コンテンツに含まれる用語の解説を取得してコンテンツの出力されている映像と用語の解説を合成することで、出力されている映像に対してリアルタイムに用語解説を表示する。

特開２０１１−２５９１７６号公報

しかしながら、上記の従来技術では、聞き手にとって適切な用語の解説を表示することができるとは限らなかった。例えば、上記の従来技術では、コンテンツに含まれる用語の解説を画一的に取得して表示するので、聞き手にとって常識的な用語の解説を表示する場合がある。このようなことから、上記の従来技術では、聞き手にとって適切な用語の解説を表示することができるとは限らなかった。

本願は、上記に鑑みてなされたものであって、聞き手にとって適切な用語の解説を表示することができる情報処理装置、情報処理方法および情報処理プログラムを提供することを目的とする。

本願に係る情報処理装置は、音声に関する情報を受信する受信部と、前記受信部によって受信された音声に関する情報に含まれる用語を抽出する抽出部と、前記抽出部によって抽出された用語のうち聞き手に応じた専門用語の要約を出力する出力部とを備えたことを特徴とする。

実施形態の一態様によれば、聞き手にとって適切な用語の解説を表示することができるという効果を奏する。

図１は、実施形態に係る提示システムによる提示処理の一例を示す説明図である。図２は、実施形態に係る情報処理装置の構成例を示す図である。図３は、実施形態に係る音声情報記憶部の一例を示す図である。図４は、実施形態に係る用語情報記憶部の一例を示す図である。図５は、実施形態に係るユーザ情報記憶部の一例を示す図である。図６は、要約の一例を示す図である。図７は、提示システムによる提示処理手順を示すシーケンスである。図８は、表示画面の一例を示す図である。図９は、設定画面の一例を示す図である。図１０は、選択画面の一例を示す図である。図１１は、情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

以下に、本願に係る情報処理装置、情報処理方法および情報処理プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法および情報処理プログラムが限定されるものではない。また、以下の実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

〔１．実施形態〕
〔１−１．実施形態に係る提示処理〕
まず、図１を用いて、実施形態に係る提示処理の一例について説明する。図１は、実施形態に係る提示システム１による提示処理の一例を示す説明図である。提示システム１では、図１に示すように、情報処理装置１００が、講演者ＳＭ（話し手の一例に相当）の講話に含まれる専門用語の要約を聴衆Ｕ１〜Ｕ２（聞き手の一例に相当）に提示する提示処理が行われる。

図１に示すように提示システム１には、話者端末１０と、聴衆端末２０Ａ〜２０Ｂと、情報提供装置５０と、情報処理装置１００とが含まれる。話者端末１０、聴衆端末２０Ａ〜２０Ｂ、情報提供装置５０、情報処理装置１００は、それぞれネットワークと無線または有線により通信可能に接続される。なお、以下では、聴衆端末２０Ａ〜２０Ｂの各装置を区別なく総称する場合には、「聴衆端末２０」と記載する場合がある。

話者端末１０は、スマートフォンや、タブレット型端末や、携帯電話機、ＰＣ（Personal Computer）や、ＰＤＡ（Personal Digital Assistant）等の情報処理装置である。具体的には、話者端末１０は、講話の話し手である講演者ＳＭに所有される。例えば、話者端末１０は、話し手から発せられる音声を録音する機能や、音声を認識する機能を有する。

聴衆端末２０は、スマートフォンや、タブレット型端末や、携帯電話機、ＰＣや、ＰＤＡ等の情報処理装置である。具体的には、聴衆端末２０は、講話の聞き手である聴衆Ｕ１〜Ｕ２に所有される。例えば、聴衆端末２０は、専門用語の要約を画面に表示する機能を有する。

情報提供装置５０は、各種の情報を提供するサーバ装置である。具体的には、情報提供装置５０は、インターネット百科事典として用語の意味を提供する。例えば、情報提供装置５０は、検索クエリを受信した場合に、かかる検索クエリに対応する用語の解説情報を送信元の装置に提供する。

情報処理装置１００は、専門用語の要約を出力するサーバ装置である。具体的には、情報処理装置１００は、まず、音声に関する情報を受信する（ステップＳ１）。より具体的には、情報処理装置１００は、音声に関する情報として、講演者ＳＭの講話の一部分を音声認識した音声認識結果ＳＲ１「間接金融がナッシュ均衡だったからペンディングした」を、話者端末１０から受信する。

続いて、情報処理装置１００は、受信された音声に関する情報に含まれる用語を抽出する（ステップＳ２）。具体的には、情報処理装置１００は、受信された音声認識結果ＳＲ１に含まれる用語「間接金融」、「ナッシュ均衡」、「ペンディング」を抽出する（ステップＳ２）。

そして、情報処理装置１００は、抽出した用語の要約を生成する（ステップＳ３）。具体的には、情報処理装置１００は、情報提供装置５０を利用して、「間接金融」、「ナッシュ均衡」、「ペンディング」の要約をそれぞれ生成する。一例としては、情報処理装置１００は、検索クエリとして「間接金融」を情報提供装置５０に送信する。続いて、情報処理装置１００は、情報提供装置５０から検索クエリの応答として「間接金融」の解説情報を受信する。そして、情報処理装置１００は、受信した「間接金融」の解説情報を参照し、「間接金融」の要約Ａｂ１「金融の一形態で融資する側と受ける側の間に間接的に資金を貸し借りする機関が存在する仕組みのこと」を生成する。同様に、情報処理装置１００は、「ナッシュ均衡」の要約Ａｂ２「ゲーム理論における非協力ゲームの解の一種であり、いくつかの解の概念の中で最も基本的な概念である。」を生成する。また、情報処理装置１００は、「ペンディング」の要約Ａｂ３「「未定」、「保留」もしくは「先送り」といった意味の外来語であるが、業界によって微妙にニュアンスが異なる場合がある。」を生成する。

続いて、情報処理装置１００は、音声に関する情報に含まれる用語として抽出された「間接金融」、「ナッシュ均衡」、「ペンディング」のうち聴衆Ｕ１に応じた専門用語の要約を、聴衆Ｕ１が有する聴衆端末２０Ａに対してリアルタイムに出力する（ステップＳ４）。ここで、聴衆Ｕ１は、「音楽」の専門家であるものとする。言い換えると、聴衆Ｕ１は、ユーザ属性として「音楽」を有するものとする。この場合、情報処理装置１００は、聴衆Ｕ１に応じた専門用語として、「音楽」以外の分野に属する用語である「間接金融」、「ナッシュ均衡」、「ペンディング」の要約Ａｂ１〜Ａｂ３を聴衆Ｕ１が有する聴衆端末２０Ａに出力する。これにより、聴衆端末２０Ａは、図１に示すように、「間接金融」、「ナッシュ均衡」、「ペンディング」の要約Ａｂ１〜Ａｂ３をリアルタイムに画面に表示する。

また、情報処理装置１００は、音声に関する情報に含まれる用語として抽出された「間接金融」、「ナッシュ均衡」、「ペンディング」のうち聴衆Ｕ２に応じた専門用語の要約を、聴衆Ｕ２が有する聴衆端末２０Ｂに対してリアルタイムに出力する（ステップＳ５）。ここで、聴衆Ｕ２は、「金融」および「経済」の専門家であるものとする。言い換えると、聴衆Ｕ２は、ユーザ属性として「金融」および「経済」を有するものとする。この場合、情報処理装置１００は、聴衆Ｕ２に応じた専門用語として、「金融」および「経済」以外の分野に属する用語である「ペンディング」の要約を聴衆端末２０Ｂに出力する。一方、情報処理装置１００は、「金融」および「経済」の分野に属する用語である「間接金融」、「ナッシュ均衡」の要約を聴衆端末２０Ｂに出力しない。これにより、聴衆端末２０Ｂは、図１に示すように、「間接金融」および「ナッシュ均衡」の要約Ａｂ１〜Ａｂ２を表示せず、「ペンディング」の要約Ａｂ３をリアルタイムに画面に表示する。

このように、実施形態に係る情報処理装置１００は、音声に関する情報を受信する。また、情報処理装置１００は、受信された音声に関する情報に含まれる用語を抽出する。また、情報処理装置１００は、抽出された用語のうち聞き手に応じた専門用語の要約を出力する。

これにより、情報処理装置１００は、話し手の音声に含まれる用語のうち聞き手に応じた専門用語を出力することができるので、聞き手にとって適切な用語の解説を表示することができる。例えば、情報処理装置１００は、聞き手が専門外とする分野に属する用語の要約を出力することができるので、ユーザが知りたい用語の要約を表示することができる。また、情報処理装置１００は、聞き手が専門とする分野に属する用語の要約を出力しないので、ユーザにとって解説が不要な用語が表示されることを防ぎ見易さを高く保つことができる。

なお、図１では、提示システム１に、１台の話者端末１０と、２台の聴衆端末２０Ａ〜２０Ｂと、１台の情報処理装置１００とが含まれる例を示したが、提示システム１には、複数台の話者端末１０や、２台に限らず複数台の聴衆端末２０Ａ〜２０Ｂや、複数台の情報処理装置１００が含まれてもよい。

また、図１では、説明を簡単にするため講演者ＳＭの講話の一部分である「間接金融がナッシュ均衡だったからペンディングした」を例として示したが、実際には講話の一部分に限らず、講話の全部分を対象とし、講話に含まれる専門用語が出現する度にかかる専門用語の要約をリアルタイムに順次表示する。

〔１−２．実施形態に係る情報処理装置の構成〕
次に、図２を用いて、実施形態に係る情報処理装置１００の構成について説明する。図２は、実施形態に係る情報処理装置１００の構成例を示す図である。図２に示すように、情報処理装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有する。なお、情報処理装置１００は、情報処理装置１００を利用する管理者等から各種操作を受け付ける入力部（例えば、キーボードやマウス等）や、各種情報を表示するための表示部（例えば、液晶ディスプレイ等）を有してもよい。

（通信部１１０について）
通信部１１０は、ＮＩＣ（Network Interface Card）等によって実現される。具体的には、通信部１１０は、ネットワークと有線または無線で接続され、ネットワークを介して、話者端末１０や聴衆端末２０、情報提供装置５０との間で情報の送受信を行う。例えば、通信部１１０は、話者端末１０から音声に関する情報の受信を行う。他の例では、通信部１１０は、聴衆端末２０に対して専門用語の要約に関する情報の送信を行う。他の例では、通信部１１０は、情報提供装置５０との間で、用語に関する情報の送信と、用語の解説情報の受信とを行う。

（記憶部１２０について）
記憶部１２０は、例えば、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部１２０は、音声情報記憶部１２１と、用語情報記憶部１２２と、ユーザ情報記憶部１２３とを有する。

（音声情報記憶部１２１について）
音声情報記憶部１２１は、音声に関する情報を記憶する。具体的には、音声情報記憶部１２１は、話し手から発せられる音声を音声認識した音声認識結果に関する情報を記憶する。ここで、図３に、実施形態に係る音声情報記憶部１２１の一例を示す。図３に示すように、音声情報記憶部１２１は、「音声ＩＤ」および「認識結果」といった項目を有する。

「音声ＩＤ」は、音声に関する情報を識別するための識別情報を示す。例えば、「音声ＩＤ」には、音声ごとに個別に割り当てられる英数字等のユニークな文字列などが記憶される。「認識結果」は、音声に対して音声認識を行なった結果を示す。例えば、「認識結果」には、音声から認識された文字列などが記憶される。

すなわち、図３では、音声ＩＤ「ＳＲ１」によって識別される音声を音声認識した音声認識結果は、「間接金融がナッシュ均衡だったからペンディングした」である例を示している。また、図３では、音声ＩＤ「ＳＲ２」によって識別される音声を音声認識した音声認識結果は、「米ダウ工業株30種平均、独ＤＡＸ指数は、原油安の影響でともに１％強下がった」である例を示している。

（用語情報記憶部１２２について）
用語情報記憶部１２２は、用語に関する情報を記憶する。具体的には、用語情報記憶部１２２は、音声毎に、音声に関する情報に含まれる用語に関する情報を記憶する。ここで、図４に、実施形態に係る用語情報記憶部１２２の一例を示す。図４に示すように、用語情報記憶部１２２は、「音声ＩＤ」、「用語ＩＤ」および「用語」といった項目を有する。

「音声ＩＤ」は、音声に関する情報を識別するための識別情報を示す。例えば、「音声ＩＤ」には、音声ごとに個別に割り当てられる英数字等のユニークな文字列などが記憶される。「用語ＩＤ」は、音声に関する情報に含まれる用語を識別するための識別情報を示す。例えば、「用語ＩＤ」には、音声に関する情報に含まれる用語ごとに個別に割り当てられるユニークな英数字等の文字列などが記憶される。「用語」は、音声に関する情報に含まれる用語を示す。例えば、「用語」には、音声に関する情報に含まれる単語のうち固有名詞の単語などが記憶される。

すなわち、図４では、音声ＩＤ「ＳＲ１」によって識別される音声の音声認識結果は、用語「間接金融」、「ナッシュ均衡」および「ペンディング」を含む例を示している。また、「間接金融」の用語ＩＤは、「Ｗ１」である例を示している。また、「ナッシュ均衡」の用語ＩＤは、「Ｗ２」である例を示している。また、「ペンディング」の用語ＩＤは、「Ｗ３」である例を示している。

（ユーザ情報記憶部１２３について）
ユーザ情報記憶部１２３は、ユーザに関する情報を記憶する。具体的には、ユーザ情報記憶部１２３は、ユーザ毎に、ユーザの特徴を示すユーザ属性に関する情報を記憶する。ここで、図５に、実施形態に係るユーザ情報記憶部１２３の一例を示す。図５に示すように、ユーザ情報記憶部１２３は、「ユーザＩＤ」および「ユーザ属性」といった項目を有する。

「ユーザＩＤ」は、ユーザを識別するための識別情報を示す。例えば、「ユーザＩＤ」には、ユーザごとに個別に割り当てられるユニークな英数字等の文字列などが記憶される。「ユーザ属性」は、ユーザの特徴を表す属性を示す。例えば、「ユーザ属性」には、ユーザの登録情報や検索履歴、Ｗｅｂページの閲覧履歴、商品購入履歴、サービスの利用履歴などといった各種の情報から推定される属性が記憶される。

すなわち、図５では、ユーザＩＤ「Ｕ１」によって識別されるユーザＵ１のユーザ属性は、「音楽」である例を示している。このため、ユーザＵ１は、他の分野と比較して、「音楽」の分野に関する知識を有すると考えられる。また、ユーザＩＤ「Ｕ２」によって識別されるユーザＵ２のユーザ属性は、「金融」および「経済」である例を示している。このため、ユーザＵ２は、他の分野と比較して、「金融」および「経済」の分野に関する知識を有すると考えられる。

（制御部１３０について）
制御部１３０は、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、情報処理装置１００内部の記憶装置に記憶されている各種プログラム（情報処理プログラムの一例に相当）がＲＡＭを作業領域として実行されることにより実現される。また、制御部１３０は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現される。

制御部１３０は、図２に示すように、受信部１３１と、抽出部１３２と、生成部１３３と、出力部１３４とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１３０の内部構成は、図２に示した構成に限られず、後述する提示処理を行う構成であれば他の構成であってもよい。また、制御部１３０が有する各処理部の接続関係は、図２に示した接続関係に限られず、他の接続関係であってもよい。

（受信部１３１について）
受信部１３１は、音声に関する情報を受信する。具体的には、受信部１３１は、音声に関する情報として、話し手が発する音声を音声認識した音声認識結果を話者端末１０から受信する。また、受信部１３１は、音声に関する情報を受信した場合に、受信した音声に関する情報を音声情報記憶部１２１に格納する。例えば、受信部１３１は、音声認識結果に個別の音声ＩＤを付与し、音声認識結果を音声ＩＤに対応付けて音声情報記憶部１２１に格納する。

また、受信部１３１は、用語の解説情報を受信する。具体的には、受信部１３１は、後述する抽出部１３２によって抽出された用語を検索クエリとして情報提供装置５０に送信した場合に、かかる検索クエリの応答として用語の解説情報を情報提供装置５０から受信する。

（抽出部１３２について）
抽出部１３２は、受信部１３１によって受信された音声に関する情報に含まれる用語を抽出する。具体的には、抽出部１３２は、音声に関する情報として話者端末１０から受信した音声認識結果に含まれる用語を抽出する。例えば、抽出部１３２は、音声認識結果に含まれる単語のうち名詞を抽出する。一例としては、抽出部１３２は、音声認識結果に含まれる名詞の組み合わせのローマ字読みをインターネット百科事典等に掲載された記事名のローマ字読みと照合することで、音声認識結果に含まれる用語を抽出する。これにより、抽出部１３２は、表記ゆれ（例えば、数字と漢数字）によって用語の抽出を失敗することを防ぐことができる。そして、抽出部１３２は、抽出した用語を用語情報記憶部１２２に格納する。例えば、抽出部１３２は、抽出した用語に個別の用語ＩＤを付与し、用語を音声ＩＤおよび用語ＩＤに対応付けて用語情報記憶部１２２に格納する。

（生成部１３３について）
生成部１３３は、抽出部１３２によって抽出された用語の要約を生成する。具体的には、生成部１３３は、情報提供装置５０を利用して、音声に関する情報に含まれる用語の要約を生成する。例えば、生成部１３３は、まず、抽出部１３２によって抽出された用語を検索クエリとして情報提供装置５０に送信する。続いて、生成部１３３は、送信した検索クエリの応答として用語の解説情報（例えば、Ｗｉｋｉｐｅｄｉａ（登録商標）において検索クエリを検索した検索結果の記事）を情報提供装置５０から受信する。そして、情報処理装置１００は、受信した用語の解説情報を用いて用語の要約を生成する。

この点について、図６を用いて詳細に説明する。図６は、用語の要約を生成する生成処理を説明するための説明図である。図６の例では、生成部１３３は、用語「ナッシュ均衡」の要約Ａｂ２を生成する。具体的には、生成部１３３は、図６に示すように、第１パラグラフＰｒ１、第２パラグラフＰｒ２および第３パラグラフＰｒ３によって形成される解説情報Ｃｍのうち第１パラグラフＰｒ１を用いて用語「ナッシュ均衡」の要約Ａｂ２を生成する。より具体的には、生成部１３３は、まず、解説情報Ｃｍから第１パラグラフＰｒ１を抽出する。続いて、生成部１３３は、抽出した解説情報Ｃｍの第１パラグラフＰｒ１から冗長な表現を削除する。例えば、生成部１３３は、解説情報Ｃｍの第１パラグラフＰｒ１の第１文目から「〜は、」に該当する部分を削除する。図６の例では、「〜」は、要約を生成する対象となる用語である「ナッシュ均衡」を意味する。また、生成部１３３は、解説情報Ｃｍの第１パラグラフＰｒ１の全体から「〜」に該当する部分を削除する。そして、生成部１３３は、第１パラグラフＰｒ１の残りの文章の全体の長さを所定の範囲内に調整する。例えば、生成部１３３は、第１パラグラフの残りの文章の長さが所定の範囲内より長い場合には、所定の範囲内に収まるように第１パラグラフの残りの文章の一部を削除する。これにより、生成部１３３は、「ナッシュ均衡」の要約Ａｂ２を生成する。一方、生成部１３３は、第１パラグラフの残りの文章の長さが所定の範囲内より短い場合には、例えば、第１パラグラフの残りの文章と、削除した第１パラグラフの文章とを組み合わせた要約を生成する。他の例では、生成部１３３は、第２パラグラフの内容を用いて第１パラグラフと同様の処理を行ない、第１パラグラフの残りの文章と第２パラグラフの残りの文章とを組み合わせた要約を生成する。そして、生成部１３３は、生成した用語の要約を用語情報記憶部１２２に格納する。例えば、生成部１３３は、生成した用語の要約を用語ＩＤに対応付けて用語情報記憶部１２２に格納する。

（出力部１３４について）
出力部１３４は、抽出部１３２によって抽出された用語のうち聞き手に応じた専門用語の要約を出力する。具体的には、出力部１３４は、抽出部１３２によって抽出された用語が属する分野に基づいて聞き手に応じた専門用語の要約を出力する。。例えば、出力部１３４は、聞き手のユーザ属性に基づいて専門用語の要約を出力する。一例としては、出力部１３４は、ユーザ情報記憶部１２３を参照し、生成部１３３によって生成された用語の要約のうちユーザが有するユーザ属性以外の分野に属する用語の要約を、かかるユーザが有する聴衆端末２０にリアルタイムに出力する。

他の例では、出力部１３４は、音声に関する情報に含まれる用語のうち出現頻度に基づく専門用語度が所定の閾値以上の専門用語の要約を出力する。例えば、出力部１３４は、専門用語度として、以下の式（１）によって表されるＩＤＦ（Inverse Document Frequency）値が所定の閾値以上の用語の要約を出力する。

ここで、式（１）の「Ｎ」は、インターネット百科事典が有する全記事数を示す。また、式（１）の「ｄｆ_ｊ」は、記事名が文書に出現する頻度を示す。したがって、出力部１３４は、出現頻度が低い用語ほど専門的な用語であると判断して要約を優先して出力する。なお、ＩＤＦ値は、一例としては、Ｈａｄｏｏｐで分散処理によって計算される。

ここで、出力部１３４は、ユーザ属性に応じて調整された専門用語度の閾値に基づいて専門用語の要約を出力してもよい。例えば、出力部１３４は、専門用語度が、ユーザ属性に応じて専門用語度を算出する算出式の係数の重みを変更することで調整された閾値以上の用語の要約を出力する。

〔１−３．実施形態に係る提示処理手順〕
次に、図７を用いて、実施形態に係る提示システム１による処理の手順について説明する。図７は、実施形態に係る提示システム１による提示処理手順を示すシーケンスである。

図７に示すように、情報処理装置１００は、話者端末１０から音声に関する情報を受信する（ステップＳ１０１）。例えば、情報処理装置１００は、音声に関する情報として、話し手が発する音声を音声認識した音声認識結果を話者端末１０から受信する。そして、情報処理装置１００は、音声に関する情報を受信した場合に、受信した音声に関する情報を音声情報記憶部１２１に格納する。

続いて、情報処理装置１００は、受信された音声に関する情報に含まれる用語を抽出する（ステップＳ１０２）。例えば、情報処理装置１００は、音声に関する情報として話者端末１０から受信した音声認識結果に含まれる用語を抽出する。そして、情報処理装置１００は、抽出した用語を用語情報記憶部１２２に格納する。

その後、情報処理装置１００は、抽出された用語を検索クエリとして情報提供装置５０に送信する（ステップＳ１０３）。そして、情報処理装置１００は、送信した検索クエリの応答として用語の解説情報を情報提供装置５０から受信する（ステップＳ１０４）。続いて、情報処理装置１００は、受信した用語の解説情報に基づいて用語の要約を生成する（ステップＳ１０５）。そして、情報処理装置１００は、生成した要約を用語と対応付けて用語情報記憶部１２２に格納する。

続いて、情報処理装置１００は、抽出された用語のうち聞き手に応じた専門用語の要約を出力する（ステップＳ１０６）。例えば、情報処理装置１００は、ユーザ情報記憶部１２３を参照し、生成された用語の要約のうちユーザが有するユーザ属性以外の分野に属する用語の要約を、かかるユーザが有する聴衆端末２０に出力する。

〔１−４．実施形態の効果〕
上述してきたように、実施形態に係る情報処理装置１００は、受信部１３１と、抽出部１３２と、出力部１３４とを有する。受信部１３１は、音声に関する情報を受信する。抽出部１３２は、受信部１３１によって受信された音声に関する情報に含まれる用語を抽出する。出力部１３４は、抽出部１３２によって抽出された用語のうち聞き手に応じた専門用語の要約を出力する。

また、実施形態に係る情報処理装置１００において、出力部１３４は、抽出部１３２によって抽出された用語が属する分野に基づいて聞き手に応じた専門用語の要約を出力する。これにより、情報処理装置１００は、聞き手にとって知識が浅い分野に属する用語の要約を聞き手に対して提示することができるので、聞き手の聴講をサポートすることができる。例えば、情報処理装置１００は、聞き手に応じた用語の要約を自動的に提示することができるので、聞き手が専門用語を能動的に検索する手間を削減することができる。

また、実施形態に係る情報処理装置１００において、出力部１３４は、音声に関する情報に含まれる用語のうち出現頻度に基づく専門用語度が所定の閾値以上の専門用語の要約を出力する。これにより、情報処理装置１００は、出現頻度が低い専門的な用語の要約を出力することができるので、聞き手が知らない可能性が高い用語の要約を提示することができる。例えば、情報処理装置１００は、出願頻度が高い用語の要約は出力しないので、ユーザにとって見慣れた用語の要約が表示されることを防ぎ見易さを高く保つことができる。

また、実施形態に係る情報処理装置１００において、出力部１３４は、聞き手のユーザ属性に基づいて専門用語の要約を出力する。これにより、情報処理装置１００は、聞き手にとって知識が浅い分野に属する用語の要約を出力することができるので、聞き手が知らない可能性が高い用語の要約を提示することができる。例えば、情報処理装置１００は、聞き手の専門以外の分野に属する用語の要約を出力することができるので、聞き手の聴講を支援することができる。

〔２．変形例〕
上述した実施形態に係る情報処理装置１００は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、上記の情報処理装置１００の他の実施形態について説明する。

〔２−１．聞き手の操作に応じた要約〕
上記の実施形態では、情報処理装置１００が、抽出部１３２によって抽出された用語のうち聞き手に応じた専門用語の要約を出力する例を挙げて説明した。ここで、情報処理装置１００は、聞き手の操作に応じた専門用語の要約を出力してもよい。

具体的には、情報処理装置１００の出力部１３４は、聞き手による専門用語の要約に関する操作に基づいて専門用語の要約を出力する。言い換えると、出力部１３４は、専門用語の要約に対する聴衆の操作をフィードバックして専門用語の要約を出力する。例えば、出力部１３４は、専門用語の要約に対する聞き手の選択操作または削除操作に基づいて専門用語の要約を出力する。

この点について、図８を用いて説明する。図８は、表示画面の一例を示す図である。図８に示すように、聴衆端末２０は、用語の要約Ａｂとともに、かかる用語に対応するリンクボタンＬｉを表示する。ここで、聴衆端末２０は、聞き手によってリンクボタンＬｉが選択された場合に、用語に対応するインターネット百科事典の記事へ遷移する。そして、情報処理装置１００は、例えば、用語に対応するリンクボタンＬｉを選択する選択操作の回数が多いほど専門的な用語であるとして、今後かかる用語が出現した場合に要約Ａｂを優先して出力する。

なお、情報処理装置１００は、リンクボタンＬｉを選択する選択操作の回数に限らず、各種の選択操作の回数に基づいて専門用語の要約を出力してもよい。例えば、情報処理装置１００は、用語の要約に対応して表示される図示しない「役立つ」ボタンを選択する選択操作の回数が多いほど専門的な用語であるとして、今後かかる用語が出現した場合にかかる用語の要約を優先して出力してもよい。

他の例では、聴衆端末２０は、画面に表示された要約Ａｂ上で指を左右に素早く動かすフリック操作が行われた場合に、要約Ａｂを表示画面から削除する。そして、情報処理装置１００は、例えば、用語の要約Ａｂを画面上から削除する削除操作の回数が多いほど専門的な用語ではないとして、今後かかる用語が出現した場合に、かかる用語の要約Ａｂを優先して出力しない。

なお、情報処理装置１００は、要約に対するフリック操作による削除操作に限らず、各種の操作によって実行される削除操作の回数に基づいて専門用語の要約を出力してもよい。例えば、情報処理装置１００は、用語の要約に対応して表示される図示しない「削除」ボタンを選択する選択操作の回数が多いほど専門的な用語でないとして、今後かかる用語が出現した場合にかかる用語の要約を優先して出力しないようにしてもよい。

このように、変形例に係る情報処理装置１００は、聞き手による専門用語の要約に関する操作に基づいて専門用語の要約を出力する。これにより、情報処理装置１００は、要約に対する聞き手の反応に応じて用語の要約を出力することができるので、聞き手にとって適切な用語の解説を表示することができる。

また、変形例に係る情報処理装置１００は、専門用語の要約に対する聞き手の選択操作または削除操作に基づいて専門用語の要約を出力する。これにより、情報処理装置１００は、聞き手が深く調べる傾向にある用語の要約を出力することができるので、聞き手が知りたい可能性が高い用語の解説を表示することができる。また、情報処理装置１００は、聞き手が削除する傾向にある用語の要約を出力することができるので、聞き手にとって解説を表示しなくてもよい常識的な用語の解説が表示されてしまい見易さが損なわれることを防ぐことができる。

〔２−２．聞き手の操作状況を話し手に出力〕
上記の変形例では、情報処理装置１００が、要約に対する聞き手の反応に応じて用語の要約を出力する例を挙げて説明した。ここで、情報処理装置１００は、要約に対する聞き手の操作状況を話し手に出力してもよい。

具体的には、情報処理装置１００の出力部１３４は、聞き手による専門用語の要約に関する操作状況を音声に関する情報の話し手に出力する。例えば、情報処理装置１００は、要約に関する操作状況として、用語の要約に対して選択操作がなされた選択回数をかかる用語と対応付けて話者端末１０にリアルタイムに出力する。他の例では、情報処理装置１００は、要約に関する操作状況として、用語の要約に対して削除操作がなされた削除回数をかかる用語と対応付けて話者端末１０にリアルタイムに出力する。

このように、変形例に係る情報処理装置１００は、聞き手による専門用語の要約に関する操作状況を音声に関する情報の話し手に出力する。これにより、情報処理装置１００は、要約に対して聞き手が行った操作について話し手に通知することができるので、話し手の講演の質を向上させることができる。例えば、情報処理装置１００は、用語の要約に対して選択操作がなされた回数を話し手に通知することができるので、聞き手が理解していない用語を話し手に把握させることができる。また、情報処理装置１００は、用語の要約に対して削除操作がなされた回数を話し手に通知することができるので、聞き手が理解している用語を話し手に把握させることができる。このため、情報処理装置１００は、用語の要約に対する操作によって効果を測定することができるので、話し手が聞き手の理解度を把握するのに役立つ情報を提供することができる。

〔２−３．聞き手に応じたタイミングで出力〕
上記の実施形態では、情報処理装置１００が、抽出部１３２によって抽出された用語のうち聞き手に応じた専門用語の要約を出力する例を挙げて説明した。ここで、情報処理装置１００は、聞き手に応じたタイミングで要約を出力してもよい。

具体的には、情報処理装置１００の出力部１３４は、聞き手の音声に関する情報における分野の知識が浅いほど高い頻度で専門用語の要約を出力する。例えば、出力部１３４は、聞き手が専門用語の要約を参照した回数が多いほど高い頻度で専門用語の要約を出力する。一例としては、情報処理装置１００は、聞き手が用語の要約を選択して用語に対応する記事へ遷移した回数が多いほど高い頻度で用語の要約を聴衆端末２０に出力する。言い換えると、情報処理装置１００は、聞き手の選択回数が所定の回数より多く知識レベルが初級である場合には、専門用語が出現する度に用語の要約を出力する。一方、情報処理装置１００は、聞き手の選択回数が所定の回数より少なく知識レベルが中級以上である場合には、話の最後にまとめて用語の要約を出力する。

このように、変形例に係る情報処理装置１００は、聞き手の音声に関する情報における分野の知識が浅いほど高い頻度で専門用語の要約を出力する。これにより、情報処理装置１００は、聞き手の知識に応じて要約を出力することができるので、聞き手に合ったタイミングで要約を表示させることができる。例えば、情報処理装置１００は、聞き手が初級者である場合には、専門用語が出現するとすぐに要約を提示することができる。一方、情報処理装置１００は、聞き手が中級者以上である場合には、用語の要約が頻繁に出現する煩わしさを防ぐことができる。

また、変形例に係る情報処理装置１００は、聞き手が専門用語の要約を参照した回数が多いほど高い頻度で専門用語の要約を出力する。これにより、情報処理装置１００は、聞き手のレベルを高い精度で推定することができるので、聞き手に合ったタイミングで要約を提示することができる。

〔２−４．用語ランキング〕
上記の実施形態では、情報処理装置１００が、抽出部１３２によって抽出された用語のうち聞き手に応じた専門用語の要約を出力する例を挙げて説明した。ここで、情報処理装置１００は、各種の形態で用語に関する情報を出力してもよい。

具体的には、情報処理装置１００の出力部１３４は、専門用語の要約に対する聞き手の選択回数が多い順または削除回数が少ない順に専門用語を並べた用語ランキングを出力する。例えば、情報処理装置１００は、要約に対する選択回数を用語名と対応付けて昇順に並べた表を聴衆端末２０に対して出力する。他の例では、情報処理装置１００は、要約に対する削除回数を用語名と対応付けて降順に並べた表を聴衆端末２０に対して出力する。

このように、変形例に係る情報処理装置１００は、専門用語の要約に対する聞き手の選択回数が多い順または削除回数が少ない順に専門用語を並べた用語ランキングを出力する。これにより、情報処理装置１００は、他の用語と比較して聞き手が知らない用語を容易に把握可能な情報を提供することができるので、聞き手の利便性を向上させることができる。

〔２−５．グルーピング〕
上記の実施形態では、情報処理装置１００が、抽出部１３２によって抽出された用語のうち聞き手に応じた専門用語の要約を出力する例を挙げて説明した。ここで、情報処理装置１００は、各種の形態で専門用語に関する情報を出力してもよい。

具体的には、情報処理装置１００の出力部１３４は、抽出部１３２によって抽出された用語のうち聞き手に応じた専門用語をかかる専門用語が属するグループ別に出力する。例えば、情報処理装置１００は、専門用語を分野別に分類した表を聴衆端末２０に対して出力する。他の例では、情報処理装置１００は、講話において出現した時間帯ごとに専門用語をまとめて分類した表を聴衆端末２０に対して出力する。一例としては、情報処理装置１００は、講話の質疑応答時間に出現した専門用語をまとめた表を聴衆端末２０に対して出力する。

このように、変形例に係る情報処理装置１００は、抽出部１３２によって抽出された用語のうち聞き手に応じた専門用語をかかる専門用語が属するグループ別に出力する。これにより、情報処理装置１００は、専門用語の傾向を把握させることができるので、話し手や聞き手に役立つ情報を提供することができる。

〔２−６．要約の量を補正〕
上記の実施形態では、情報処理装置１００が、抽出部１３２によって抽出された用語のうち聞き手に応じた専門用語の要約を出力する例を挙げて説明した。ここで、情報処理装置１００は、各種の情報に基づいて要約の量を補正してもよい。

具体的には、情報処理装置１００の出力部１３４は、聞き手による専門用語の要約に関する操作に基づいて専門用語の要約の量を補正して出力する。言い換えると、情報処理装置１００は、要約に対する聞き手の操作をフィードバックして要約の文字数を補正する。例えば、情報処理装置１００は、用語の記事へ遷移するリンクボタンを選択する選択操作の回数が多いほど専門的な用語であるとして要約の文字数を増やして聴衆端末２０に出力する。一方、情報処理装置１００は、用語の要約を削除する削除操作の回数が多いほど専門的な用語でないとして要約の文字数を減らして聴衆端末２０に出力する。

このように、変形例に係る情報処理装置１００は、聞き手による専門用語の要約に関する操作に基づいて専門用語の要約の量を補正して出力する。これにより、情報処理装置１００は、要約に対する操作結果を反映した要約を出力することができるので、聞き手にとって質の高い要約を提供することができる。

〔２−７．専門用語度の設定〕
上記の実施形態では、情報処理装置１００が、音声に関する情報に含まれる用語のうち出現頻度に基づく専門用語度が所定の閾値以上の専門用語の要約を出力する例を挙げて説明した。ここで、情報処理装置１００は、聞き手によって設定された専門用語度の閾値に基づいて専門用語の要約を出力してもよい。

この点について図９を用いて説明する。図９は、設定画面の一例を示す図である。例えば、聴衆端末２０は、聞き手から設定画面へ遷移する操作を受け付けた場合に、図９に示すように、設定バーＢｒ上でつまみＢｕを左右に動かすことで専門用語度の閾値が設定される設定画面を表示する。一例としては、専門用語度の閾値は、設定バーＢｒ上のうちつまみＢｕが左に位置するほど低い値が設定される。一方、専門用語度の閾値は、設定バーＢｒ上のうちつまみＢｕが右に位置するほど高い値が設定される。

そして、情報処理装置１００は、設定バーＢｒ上のつまみＢｕの位置によって設定される専門用語度の閾値に基づいて専門用語の要約を聴衆端末２０に出力する。言い換えると、情報処理装置１００は、聞き手によって設定された専門用語度の閾値に基づいて出力する専門用語の要約を調整する。具体的には、情報処理装置１００は、設定バーＢｒ上のうちつまみＢｕが左に位置するほど専門用語度の閾値が低く設定されているので多くの専門用語の要約を聴衆装置２０に出力する。一方、情報処理装置１００は、設定バーＢｒ上のうちつまみＢｕが右に位置するほど専門用語度の閾値が高く設定されているので少なく専門用語の要約を聴衆装置２０に出力する。

このように、変形例に係る情報処理装置１００は、聞き手によって設定された専門用語度の閾値に基づいて専門用語の要約を出力する。これにより、情報処理装置１００は、聞き手が所望するレベル以上の専門的な用語の要約を出力することができるので、聞き手の満足度を高めることができる。

〔２−８．講演を選択〕
上記の実施形態では、情報処理装置１００が、抽出部１３２によって抽出された用語のうち聞き手に応じた専門用語の要約を出力する例を挙げて説明した。ここで、情報処理装置１００は、聞き手によって選択された講演の講話に含まれる専門用語の要約を出力してもよい。

この点について図１０を用いて説明する。図１０は、選択画面の一例を示す図である。例えば、聴衆端末２０は、図１０に示すように、専門用語の要約を出力可能な講演Ｒｍ１「カルテット第１講演会」、講演Ｒｍ２「カルテット第２セミナー」、講演Ｒｍ３「カルテット第３会議」を掲載したセミナー一覧を画面に表示する。ここで、聴衆端末２０は、講演Ｒｍ１〜Ｒｍ３の中から聞き手によって選択された講演を受け付ける。そして、情報処理装置１００は、聞き手によって選択された講演の講話に含まれる用語のうち聞き手に応じた専門用語の要約を聴衆端末２０に出力する。

このように、変形例に係る情報処理装置１００は、聞き手によって選択された講演の講話に含まれる専門用語の要約を出力する。これにより、情報処理装置１００は、聞き手が所望する講演における専門用語の要約を出力することができるので、複数の講演が同時に行われている場合でも聞き手が所望する専門用語の要約を提供することができる。

〔２−９．パーソナライズ〕
上記の実施形態では、情報処理装置１００が、聞き手のユーザ属性に基づいて専門用語の要約を出力する例を挙げて説明した。ここで、情報処理装置１００は、各種の情報に基づいて聞き手に応じた専門用語の要約を出力してもよい。

具体的には、情報処理装置１００は、他の聞き手との間の類似性に基づいて専門用語の要約を出力する。例えば、情報処理装置１００は、他のサービスなどにおける利用履歴が類似する他の聞き手が要約に対して行った選択操作に基づいて、専門用語の要約を出力する。一例としては、情報処理装置１００は、類似する他の聞き手によって要約に対する選択操作が多く行われた用語の要約ほど優先して出力する。

他の例では、情報処理装置１００は、聞き手に対して過去に出力した専門用語の要約の履歴に基づいて、専門用語の要約を出力する。例えば、情報処理装置１００は、過去に１度要約を聴衆端末２０に出力したことがある用語が出現した場合には、かかる用語の要約を同一の聴衆端末２０に対して出力しない。言い換えると、情報処理装置１００は、同一の聞き手に対して同一の用語の要約を出力しない。

このように、変形例に係る情報処理装置１００は、各種の情報に基づいて聞き手に応じた専門用語の要約を出力する。これにより、情報処理装置１００は、聞き手に特化した用語の要約を提供することができるので、聞き手における利便性を高めることができる。

〔２−１０．適用対象〕
上記の実施形態では、情報処理装置１００が、講演者の講話に含まれる専門用語の要約を聴衆に対して出力する例を挙げて説明した。ここで、情報処理装置１００は、講演に限らず、各種の発話を適用対象にしてもよい。具体的には、情報処理装置１００は、知識レベルの異なる話し手と聞き手の会話に含まれる専門用語の要約を出力する。例えば、情報処理装置１００は、先生が生徒に対して行う授業に含まれる専門用語の要約を出力する。他の例では、情報処理装置１００は、医者が患者に対して行う診察に含まれる専門用語の要約を出力する。

また、情報処理装置１００は、語学学習を用途として適用してもよい。例えば、情報処理装置１００は、まず、英語によってなされる発話を音声認識した音声認識結果を話者端末１０から受信する。続いて、情報処理装置１００は、受信した音声認識結果を英語から日本語に翻訳する。そして、情報処理装置１００は、日本語に翻訳した音声認識結果を日本人の聴衆が有する聴衆端末２０に送信する。

また、上記の実施形態では、情報処理装置１００は、スマートフォンに対して専門用語の要約を出力する例を挙げて説明した。ここで、情報処理装置１００は、スマートフォンに限らず、タブレット端末やＰＣなど各種の端末装置に対して専門用語の要約を出力してもよい。

このように、変形例に係る情報処理装置１００は、各種の発話を適用対象にする。これにより、情報処理装置１００は、講演に限らず各種の発話に含まれる専門用語の要約や日本語訳を聞き手に提供することができる。

〔２−１１．話し手と聞き手との間の知識差に基づいて専門用語の要約を出力〕
上記の実施形態では、抽出部１３２によって抽出された用語のうち聞き手に応じた専門用語の要約を出力する例を挙げて説明した。ここで、情報処理装置１００は、話し手と聞き手との間の知識差を判断基準として採用してもよい。

具体的には、情報処理装置１００の出力部１３４は、音声に関する情報の話し手と聞き手との間の知識差に基づいて専門用語の要約を出力する。例えば、情報処理装置１００は、話し手が話す講話のテーマや分野などにおける聞き手と話し手の知識レベルをそれぞれ設定する。一態様としては、知識レベルは、話し手や聞き手から受け付けたレベルが設定されてもよいし、行動履歴やプロフィールに基づいて設定されてもよい。そして、情報処理装置１００は、聞き手と話し手の知識レベルの差分に基づいて専門用語の要約を出力する。一例としては、情報処理装置１００は、知識レベルの差分が高いほど専門用語度の所定の閾値を低く設定することで専門用語の要約を相対的に多く出力する。

他の例では、情報処理装置１００は、話し手のユーザ属性と聞き手のユーザ属性とに基づいて専門用語の要約を出力する。一例としては、情報処理装置１００は、話し手のユーザ属性と聞き手のユーザ属性とが異なる場合に、専門用語度の所定の閾値を調整して専門用語の要約を出力する。一態様としては、情報処理装置１００は、話し手のユーザ属性と聞き手のユーザ属性との間の類似度が低いほど専門用語度の所定の閾値を低く設定することで専門用語の要約を相対的に多く出力する。

このように、変形例に係る情報処理装置１００は、音声に関する情報の話し手と聞き手との間の知識差に基づいて専門用語の要約を出力する。これにより、情報処理装置１００は、話し手と聞き手の知識差を考慮して専門用語の要約を出力することができるので、聞き手の聴講を支援することができる。例えば、情報処理装置１００は、話し手の専門分野と聞き手の専門分野が異なるほど多くの要約を出力することができるので、聞き手が用語の理解不足で話についていけなくなることを防ぐことができる。

〔３．その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

例えば、図２に示した音声情報記憶部１２１や用語情報記憶部１２２、ユーザ情報記憶部１２３は、情報処理装置１００が保持せずに、ストレージサーバ等に保持されてもよい。この場合、情報処理装置１００は、ストレージサーバにアクセスすることで、音声に関する情報や、用語に関する情報、ユーザに関する情報を取得する。

また、情報処理装置１００は、出力処理は行わず、抽出処理や生成処理のみを行う情報処理装置であってもよい。この場合、情報処理装置は、出力部１３４を有しない。そして、出力部１３４を有する出力装置が、情報処理装置１００によって生成された専門用語の要約を聴衆端末２０に対して出力する。

また、上記の実施形態では、サーバ装置である情報処理装置１００が用語の要約を生成して聴衆端末２０に出力する例を挙げたが、話者端末１０が用語の要約を生成して出力してもよい。この場合、例えば、話者端末１０は、受信部１３１、抽出部１３２、生成部１３３および出力部１３４に相当する機能を有する。そして、話者端末１０は、まず、音声に関する情報を受信する。続いて、話者端末１０は、受信された音声に関する情報に含まれる用語を抽出する。そして、話者端末１０は、抽出された用語のうち聞き手に応じた専門用語の要約を聴衆端末２０に出力する。

また、上記の実施形態では、聴衆端末２０が用語の要約を生成して出力してもよい。この場合、例えば、聴衆端末２０は、受信部１３１、抽出部１３２、生成部１３３および出力部１３４に相当する機能を有する。そして、聴衆端末２０は、まず、音声に関する情報を受信する。続いて、聴衆端末２０は、受信された音声に関する情報に含まれる用語を抽出する。そして、聴衆端末２０は、抽出された用語のうち聞き手に応じた専門用語の要約を画面に表示する。

また、上記の実施形態では、話者端末１０が講演者の講話の音声認識を行なう例を示したが、話者端末１０に限らずサーバ（例えば、情報処理装置１００）が音声認識を行なってもよい。この場合、例えば、情報処理装置１００は、講演者の講話を録音した音声データ等を話者端末１０から取得する。続いて、情報処理装置１００は、取得した音声データの音声認識を実行する。その後、情報処理装置１００は、音声認識結果に含まれる用語を抽出する。そして、情報処理装置１００は、抽出した用語のうち聞き手に応じた専門用語の要約を出力する。

また、上述してきた実施形態に係る情報処理装置１００は、例えば図１１に示すような構成のコンピュータ１０００によって実現される。以下、情報処理装置１００を例に挙げて説明する。図１１は、情報処理装置１００の機能を実現するコンピュータ１０００の一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ１３００、ＨＤＤ１４００、通信インターフェイス（Ｉ／Ｆ）１５００、入出力インターフェイス（Ｉ／Ｆ）１６００、およびメディアインターフェイス（Ｉ／Ｆ）１７００を有する。

ＣＰＵ１１００は、ＲＯＭ１３００またはＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、および、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス１５００は、ネットワークＮを介して他の機器からデータを受信してＣＰＵ１１００へ送り、ＣＰＵ１１００が生成したデータを、ネットワークＮを介して他の機器へ送信する。

ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやプリンタ等の出力装置、および、キーボードやマウス等の入力装置を制御する。ＣＰＵ１１００は、入出力インターフェイス１６００を介して、入力装置からデータを取得する。また、ＣＰＵ１１００は、生成したデータを、入出力インターフェイス１６００を介して出力装置へ出力する。

メディアインターフェイス１７００は、記録媒体１８００に格納されたプログラムまたはデータを読み取り、ＲＡＭ１２００を介してＣＰＵ１１００に提供する。ＣＰＵ１１００は、かかるプログラムを、メディアインターフェイス１７００を介して記録媒体１８００からＲＡＭ１２００上にロードし、ロードしたプログラムを実行する。記録媒体１８００は、例えばＤＶＤ（Digital Versatile Disk）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

例えば、コンピュータ１０００が実施形態に係る情報処理装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラムを実行することにより、制御部１３０の機能を実現する。また、ＨＤＤ１４００には、記憶部１２０内のデータが格納される。コンピュータ１０００のＣＰＵ１１００は、これらのプログラムを記録媒体１８００から読み取って実行するが、他の例として、他の装置からネットワークＮを介してこれらのプログラムを取得してもよい。

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の概要の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

また、上述した情報処理装置１００は、複数のサーバコンピュータで実現してもよく、また、機能によっては外部のプラットフォーム等をＡＰＩ（Application Programming Interface）やネットワークコンピューティングなどで呼び出して実現するなど、構成は柔軟に変更できる。

また、特許請求の範囲に記載した「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、受信部は、受信手段や受信回路に読み替えることができる。

１提示システム
１０話者端末
２０聴衆端末
５０情報提供装置
１００情報処理装置
１２１音声情報記憶部
１２２用語情報記憶部
１２３ユーザ情報記憶部
１３１受信部
１３２抽出部
１３３生成部
１３４出力部

Claims

話し手の発話である音声に関する情報を受信する受信部と、
前記受信部によって受信された音声に関する情報に含まれる用語を抽出する抽出部と、
前記抽出部によって抽出された用語のうち聞き手に応じた専門用語の要約を聞き手に応じたタイミングで出力し、前記聞き手による前記専門用語の要約に関する操作状況を前記話し手が発話している間に出力する出力部と
を備えたことを特徴とする情報処理装置。
前記出力部は、
前記抽出部によって抽出された用語が属する分野に基づいて前記聞き手に応じた専門用語の要約を出力する
ことを特徴とする請求項１に記載の情報処理装置。
前記出力部は、
前記音声に関する情報に含まれる用語のうち出現頻度に基づく専門用語度が所定の閾値以上の専門用語の要約を出力する
ことを特徴とする請求項１または２に記載の情報処理装置。
前記出力部は、
前記聞き手のユーザ属性に基づいて前記専門用語の要約を出力する
ことを特徴とする請求項１〜３のいずれか一つに記載の情報処理装置。
前記出力部は、
前記聞き手による前記専門用語の要約に関する操作に基づいて前記専門用語の要約を出力する
ことを特徴とする請求項１〜４のいずれか一つに記載の情報処理装置。
前記出力部は、
前記専門用語の要約に対する前記聞き手の選択操作または削除操作に基づいて前記専門用語の要約を出力する
ことを特徴とする請求項１〜５のいずれか一つに記載の情報処理装置。
前記出力部は、
前記聞き手の前記音声に関する情報における分野の知識が浅いほど高い頻度で前記専門用語の要約を出力する
ことを特徴とする請求項１〜６のいずれか一つに記載の情報処理装置。
前記出力部は、
前記聞き手が前記専門用語の要約を参照した回数が多いほど高い頻度で前記専門用語の要約を出力する
ことを特徴とする請求項１〜７のいずれか一つに記載の情報処理装置。
前記出力部は、
前記専門用語の要約に対する前記聞き手の選択回数が多い順または削除回数が少ない順に前記専門用語を並べた用語ランキングを出力する
ことを特徴とする請求項１〜８のいずれか一つに記載の情報処理装置。
前記出力部は、
前記抽出部によって抽出された用語のうち聞き手に応じた専門用語を当該専門用語が属するグループ別に出力する
ことを特徴とする請求項１〜９のいずれか一つに記載の情報処理装置。
前記出力部は、
前記聞き手による前記専門用語の要約に関する操作に基づいて前記専門用語の要約の量を補正して出力する
ことを特徴とする請求項１〜１０のいずれか一つに記載の情報処理装置。
前記出力部は、
前記音声に関する情報の話し手と前記聞き手との間の知識差に基づいて前記専門用語の要約を出力する
ことを特徴とする請求項１〜１１のいずれか一つに記載の情報処理装置。
情報処理装置が実行する情報処理方法であって、
話し手の発話である音声に関する情報を受信する受信工程と、
前記受信工程によって受信された音声に関する情報に含まれる用語を抽出する抽出工程と、
前記抽出工程によって抽出された用語のうち聞き手に応じた専門用語の要約を聞き手に応じたタイミングで出力し、前記聞き手による前記専門用語の要約に関する操作状況を前記話し手が発話している間に出力する出力工程と
を含んだことを特徴とする情報処理方法。
話し手の発話である音声に関する情報を受信する受信手順と、
前記受信手順によって受信された音声に関する情報に含まれる用語を抽出する抽出手順と、
前記抽出手順によって抽出された用語のうち聞き手に応じた専門用語の要約を聞き手に応じたタイミングで出力し、前記聞き手による前記専門用語の要約に関する操作状況を前記話し手が発話している間に出力する出力手順と
をコンピュータに実行させることを特徴とする情報処理プログラム。