JP5743976B2

JP5743976B2 - 情報処理装置、プログラム、及び情報処理方法

Info

Publication number: JP5743976B2
Application number: JP2012179023A
Authority: JP
Inventors: 西山　修; 修西山; 平芦川; 朋男池田; 上野　晃嗣; 晃嗣上野; 康太中田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2012-08-10
Filing date: 2012-08-10
Publication date: 2015-07-01
Anticipated expiration: 2032-08-10
Also published as: JP2014038132A; US9196253B2; US20140046666A1

Description

本発明の実施形態は、情報処理装置、プログラム、及び情報処理方法に関する。

従来、複数の話者の発言データを含む音声データを再生し、ユーザが、各話者の発言データをテキストに書き起こし、各発言データに発言者を示す話者名称を設定することが行われている。また、ユーザによる話者名称設定作業を支援する装置も知られている。

例えば、従来の装置は、音声データを音声特徴に基づいて分類する。そして、従来の装置は、分類した音声データ毎に任意の話者識別情報を割り当てて出力することで、ユーザによる話者名称設定作業を支援する。また、従来の装置は、予め顧客ごとに発信者情報と顧客氏名と音声データとを対応づけて記憶する。そして、新たに受信した発信者情報に含まれる音声データと、予め記憶した音声データとを比較し、音声類似度の高い音声データに対応する顧客氏名一覧を表示する。ユーザは、表示された顧客氏名を選択することで、設定対象の音声データに話者名称を設定する。

特開２０１０−６０８５０号公報特開２００４−１５５８４号公報

しかしながら、音声データの音声特徴は話者の体調等によって変化する場合がある。このため、音声特徴や音声類似度から求めた話者識別情報や顧客氏名は、話者名称設定対象の発言データの話者とは異なる場合があり、精度に欠けていた。このため、ユーザは、表示された話者識別情報や表示された顧客氏名の修正に手間がかかる場合があった。このように、従来では、話者名称設定対象の発言データに対して容易に話者名称を設定可能な情報を提供することは困難であった。

本発明が解決しようとする課題は、話者の発言データに対して、話者名称を容易に設定可能な情報を提供することができる、情報処理装置、プログラム、及び情報処理方法を提供することである。

実施形態の情報処理装置は、第１受付部と、分割部と、付与部と、第２受付部と、生成部と、を備える。第１受付部は、話者の発言データを含む音声データを受け付ける。分割部は、前記音声データを前記発言データ毎に分割する。付与部は、前記発言データの音響的特徴に基づいて、前記発言データに話者識別情報を付与する。第２受付部は、前記音声データに含まれる前記発言データの内、話者名称設定対象の発言データを示す指示情報を、ユーザから受け付ける。生成部は、少なくとも、前記発言データの発言識別情報と、付与された前記話者識別情報と、前記発言識別情報によって特定される前記発言データに対してユーザによって設定された話者名称と、を対応づけた操作履歴情報に基づいて、前記指示情報によって特定される前記発言データにユーザが設定する話者名称の候補を、ユーザによって設定される可能性の高さを示すスコアの高い順に配列した候補リストを生成する。第１制御部は、前記候補リストを前記指示情報によって特定される前記発言データに対応する話者名称の入力欄に表示する。

実施の形態１の情報処理システムのブロック図。第１データのデータ構造の一例を示す模式図。操作履歴情報のデータ構造の一例を示す模式図。入力画面の一例を示す模式図。第１確率の説明図。第２確率の説明図。スコア算出の説明図。候補リストのデータ構造の一例を示す模式図。設定画面の一例を示す模式図。設定画面の一例を示す模式図。操作履歴情報のデータ構造の一例を示す模式図。候補リストの一例を示す模式図。候補リストの表示状態を示す模式図。候補リストの表示状態を示す模式図。情報処理の手順を示すフローチャート。入力画面の一例を示す模式図。候補リスト生成処理の手順を示すフローチャート。実施の形態２の情報処理システムのブロック図。第３確率の説明図。スコア算出の説明図。情報処理の手順を示すフローチャート。候補リスト生成処理の手順を示すフローチャート。実施の形態３の情報処理システムの機能的構成を示すブロック図。第４確率の説明図。スコア算出の説明図。情報処理の手順を示すフローチャート。候補リスト生成処理の手順を示すフローチャート。実施の形態４の情報処理システムの模式図。情報処理の手順を示すフローチャート。情報処理の手順を示すフローチャート。

以下に添付図面を参照して、情報処理装置、プログラム、及び情報処理方法の一の実施形態を詳細に説明する。

（実施の形態１）
図１は、本実施の形態の情報処理システム１０の機能的構成を示すブロック図である。情報処理システム１０は、取得部１４、入力部２０、表示部２２、情報処理装置１２、及び記憶部１８を含む。

本実施の形態では、情報処理システム１０は、情報処理装置１２と、取得部１４、入力部２０、表示部２２、及び記憶部１８と、が別体として設けられた構成である場合を説明する。なお、情報処理システム１０は、情報処理装置１２と、取得部１４、入力部２０、表示部２２、情報処理装置１２、及び記憶部１８の少なくとも１つと、が一体的に構成された形態であってもよい。

取得部１４は、音声データを取得する。取得部１４は、音声データを取得する装置であればよい。取得部１４は、例えば、公知のマイクである。

音声データは、１または複数の話者の発言データを含む。発言データは、各話者の発する音声データを示し、他者の音声データによって区切られるまでの時系列的に連続する音声データである。

入力部２０は、各種指示入力をユーザから受け付ける。入力部２０は、例えば、マウス、ボタン、リモコン、キーボード、マイク等の音声データ認識装置、及び画像認識装等の１または複数を組み合せたもの等である。

表示部２２は、各種画像を表示する装置である。表示部２２は、液晶表示装置等の公知の表示装置である。

なお、入力部２０及び表示部２２は、一体的に構成されていてもよい。具体的には、入力部２０及び表示部２２は、入力機能及び表示機能の双方を備えたＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ）部１６として構成されていてもよい。ＵＩ部１６は、例えば、タッチパネル付ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）等である。

記憶部１８は、ハードディスクドライブ装置（ＨＤＤ）等の記憶媒体である。記憶部１８は、音声データ、第１データ、及び操作履歴情報や、各種データを記憶する。

図２は、第１データのデータ構造の一例を示す模式図である。第１データは、発言識別情報（以下、発言ＩＤと称する）と、開始時刻及び終了時刻と、話者識別情報（以下、話者ＩＤと称する）と、を対応づけたテーブルである。第１データは、情報処理装置１２によって作成される（詳細後述）。

発言ＩＤは、音声データに含まれる各発言データを一意に識別する情報である。また、発言ＩＤは、各発言データの音声データにおける時系列的な順列を示す。本実施の形態では、情報処理装置１２は、音声データにおける位置が先頭の発言データから、末端の発言データに向かって順に数の大きい番号等を、発言ＩＤとして各発言データに付与する場合を説明する。開始時刻及び終了時刻は、対応する発言データの音声データにおける位置を示す。話者ＩＤは、話者を一意に識別する情報である。発言ＩＤ及び話者ＩＤは、情報処理装置１２によって付与される（詳細後述）。

操作履歴情報は、ユーザが各発言データに設定した話者名称の設定履歴を示す情報である。操作履歴情報は、ユーザによって各発言データに話者名称が設定される度に、情報処理装置１２によって更新される。

図３は、操作履歴情報のデータ構造の一例を示す模式図である。図３に示すように、操作履歴情報は、具体的には、発言ＩＤと、話者ＩＤと、話者名称と、を対応づけて記憶したテーブルである。操作履歴情報に示される発言ＩＤ及び話者ＩＤは、後述する情報処理装置１２によって付与された情報である。操作履歴情報に示される話者名称は、ユーザが各発言データの発言者を示す情報として、各発言データに設定した情報である。

なお、図３に示す例では、操作履歴情報は、時系列的に連続する発言ＩＤ「１」〜発言ＩＤ「４」の各々について、ユーザによって話者名称が設定された状態であるときの操作履歴情報の一例を示す。

図１に戻り、情報処理装置１２は、ユーザによる話者名称の設定を支援する。

概要を説明すると、例えば、情報処理装置１２は、表示部２２に、音声データに含まれる発言データの各々について話者名称を設定するための入力画面を表示する。図４は、ユーザが話者名称を設定するときの入力画面の一例を示す模式図である。

図４に示すように、入力画面５０は、例えば、再生画面５２と設定画面５４とを含む。再生画面５２は、音声データの再生状態や、音声データに含まれる各発言データに既に設定された話者名称等を含む。設定画面５４は、音声データに含まれる発言データの一覧と、話者名称の入力欄と、発言内容の入力欄と、を含む。話者名称の入力欄には、既に話者名称がユーザによって設定済である場合には、設定済の話者名称が表示される。発言内容の入力欄には、既に発言内容がユーザによって設定済、または発言データからテキストデータとして発言内容を取り込んだ場合には、設定済または取り込み済の内容が表示される。なお、図４中、「開始時刻」は、音声データにおける各発言データの開始時刻を示す。

ユーザは、入力部２０を操作することで、話者名称設定対象の発言データ（図４では、例えば、開始時刻「０：００：１０」）を選択する。そして、ユーザは、話者名称の入力欄５６Ａに、話者名称を入力する。このとき、本実施の形態の情報処理装置１２では、ユーザが設定する話者名称の候補を示す候補リスト５６Ｂを表示する。これによって、本実施の形態の情報処理装置１２では、ユーザによる話者名称の設定を支援する。本実施の形態では、情報処理装置１２は、特有の候補リストを生成する。以下、詳細を説明する。

図１に戻り、情報処理装置１２は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、及びＨＤＤ等がバスにより相互に接続され、通常のコンピュータを利用したハードウェア構成である。

情報処理装置１２は、第１受付部２４、分割部２５、付与部２６、第２受付部２８、第３受付部３１、生成部３０、及び第１制御部３２を含む。

第１受付部２４は、音声データを取得部１４から受け付ける。なお、本実施の形態では、第１受付部２４は、取得部１４から音声データを受け付ける場合を説明するが、取得部１４から受け付ける場合に限られない。例えば、第１受付部２４は、図示を省略する通信部を介して、外部装置や外部記憶媒体等から音声データを取得してもよい。第１受付部２４は、受け付けた音声データを、記憶部１８に記憶する。なお、音声データは、予め記憶部１８に記憶してもよい。

分割部２５は、第１受付部２４が受け付けた音声データを、複数の発言データに分割する。分割部２５は、例えば、音声データを先頭から順に解析し、音響的特徴が予め定めた範囲内の音声データが連続する範囲を１つの発言データとして特定することで、該音声データを複数の発言データに分割する。なお、音響的特徴の特定には、公知の技術を用いる。

付与部２６は、分割部２５で分割された各発言データの音響的特徴に基づいて、各発言データに話者ＩＤを付与する。具体的には、付与部２６は、分割部２５で分割された各発言データを、音響的特徴が予め定めた範囲内の群に分類する。そして、分類した各群に、群毎に一意の識別情報である話者ＩＤを付与する。これによって、付与部２６は、上記第１データを作成し、記憶部１８に記憶する。なお、この音響的特徴に基づいた分類には、公知の音響特徴量抽出技術、音声・非音声判別技術、話者分類技術、音声認識技術、及び言語処理技術等の１または複数の技術を組み合わせて用いる。

第１制御部３２は、入力画面等の各種画像を表示部２２へ表示する制御を行う。

第２受付部２８は、音声データに含まれる複数の発言データの内、話者名称設定対象の発言データを示す指示情報を、ユーザから受け付ける。指示情報は、例えば、話者名称設定対象の発言データの発言ＩＤを含む。詳細には、ユーザによる入力部２０の操作によって、音声データに含まれる複数の発言データの内、話者名称設定対象の発言データが指示される。すると、入力部２０は、指示された発言データを示す情報を第２受付部２８へ送信する。第２受付部２８は、入力部２０から、指示された発言データを示す情報を受け付けることで、話者名称設定対象の発言データを示す指示情報を受け付ける。

具体的には、第１制御部３２は、音声データに含まれる発言データの一覧を表示部２２に表示する。この発言データの一覧は、発言データを特定可能な情報を示せばよい。例えば、この発言データの一覧には、各発言データの音声データにおける位置（開始時刻や終了時刻）等を用いればよい。そして、第１制御部３２は、表示した発言データの一覧の内、話者名称設定対象の指示を促すメッセージ等を表示部２２に表示する。そして、ユーザによる入力部２０の操作指示によって、話者名称設定対象の発言データが選択されたときに、入力部２０は、話者名称設定対象の発言データの発言ＩＤを含む指示情報を、第２受付部２８へ送信すればよい。

なお、話者名称設定対象の発言データを示す指示情報として、発言ＩＤ以外の情報を用いてもよい。例えば、指示情報は、ユーザによって選択された発言データの音声データにおける位置（時刻）を示す情報であってもよい。この場合には、第２受付部２８は、指示情報に含まれる該時刻に対応する発言データの発言ＩＤを、第１データから取得することで、話者名称設定対象の発言データの発言ＩＤを取得すればよい。

また、第１制御部３２が発言データの一覧の表示を行わずに、第２受付部２８がユーザから話者名称設定対象の発言データを受け付けてもよい。この場合には、第１制御部３２は、話者名称設定対象の指示を促すメッセージ等を表示部２２に表示する。そして、ユーザによる入力部２０の操作指示によって、話者名称設定対象の発言データを示す指示情報が入力されてもよい。

生成部３０は、第２受付部２８で話者名称設定対象の発言データの指示情報を受け付けたときに、操作履歴情報に基づいて、候補リストを生成する。候補リストは、第２受付部２８で受け付けた指示情報に含まれる発言ＩＤによって特定される発言データに対して、ユーザが設定する話者名称の候補を示す。

本実施の形態では、生成部３０は、候補リストとして、該候補とする話者名称と、指示情報によって特定される発言データに操作履歴情報に示される各話者名称の設定される確率の高さと、の対応を示す候補リストを作成する。

なお、話者名称設定対象の発言データに該候補とする各話者名称の設定される確率の高さには、例えば、該確率が高いほど高い優先順位を示す数字を用いる。

生成部３０は、第１算出部３４、第２算出部３６、及び第３算出部３８を含む。

第１算出部３４は、操作履歴情報に基づいて、第１確率を算出する。第１確率は、操作履歴情報に示される話者ＩＤと話者名称との対応関係から、該話者ＩＤに該話者名称が対応づけられる確率を示す。言い換えれば、第１確率は、操作履歴情報に示される各話者ＩＤに対応する発言ＩＤによって特定される発言データに、該話者ＩＤに対応する話者名称をユーザが設定した確率を、話者ＩＤ毎に示したものである。具体的には、第１算出部３４は、操作履歴情報から、話者ＩＤと話者名称との対応関係を読み取る。そして、第１算出部３４は、読み取った各話者ＩＤに対して、対応する話者名称が設定された第１確率を算出する。

操作履歴情報が、図３に示す状態であるとする。この場合、話者ＩＤ「Ａ」に対応する話者名称は、いずれも「司会者」である。また、話者ＩＤ「Ｂ」に対応する話者名称は「記者」である。また、話者ＩＤ「Ｃ」に対応する話者名称は「主演」である。図５は、第１確率の説明図である。操作履歴情報が図３に示す状態である場合、第１算出部３４は、話者ＩＤ「Ａ」に対応する発言ＩＤ「１」及び発言ＩＤ「４」の発言データに対して、話者名称「司会者」がユーザによって設定された第１確率「１．０」を算出する。また、第１算出部３４は、話者ＩＤ「Ｂ」に対応する発言ＩＤ「２」の発言データに対して、話者名称「記者」がユーザによって設定された第１確率「１．０」を算出する。また、第１算出部３４は、話者ＩＤ「Ｃ」に対応する発言ＩＤ「３」の発言データに対して、話者名称「主演」がユーザによって設定された第１確率「１．０」を算出する。

なお、例えば、操作履歴情報が、話者ＩＤ「Ａ」に対応する話者名称として「司会者」である履歴と、話者ＩＤ「Ａ」に対応する話者名称として「記者」である履歴と、を含むとする。この場合には、第１算出部３４は、話者ＩＤ「Ａ」に対応する発言ＩＤの発言データに対して、話者名称「司会者」がユーザによって設定された第１確率「０．５」を算出する。また、第１算出部３４は、話者ＩＤ「Ａ」に対応する発言ＩＤの発言データに対して、話者名称「記者」がユーザによって設定された第１確率「０．５」を算出する。

図１に戻り、第２算出部３６は、第２確率を算出する。第２確率は、操作履歴情報に示される話者名称の各々が、時系列的に直前の発言データに対応する話者名称の次に設定された確率を示す。

操作履歴情報が、図３に示す状態であるとする。図６は、第２確率の説明図である。操作履歴情報が図３に示す状態である場合、発言ＩＤ「２」に対応する話者名称は「記者」である。また、発言ＩＤ「２」の直前の発言データである発言ＩＤ「１」に対応する話者名称は「司会者」である。また、操作履歴情報には、話者名称「記者」の設定された発言ＩＤは、発言ＩＤ「２」のみである。このため、第２算出部３６は、話者名称「記者」の設定された発言ＩＤによって特定される発言データ（図６中、「後続」の発言データ）の直前の発言データに、「司会者」が設定された第２確率「１．０」を算出する。

すなわち、図６に示すように、「後続」の欄に示される話者名称「記者」に対応する、「直前」の欄に示される話者名称「司会者」の第２確率は「１．０」となる。

また、第２算出部３６は、話者名称「記者」の設定された発言ＩＤによって特定される発言データ（図６中、「後続」の発言データ）の直前に、「記者」及び「主演」が設定された第２確率「０」を算出する。

図６に示すように、「後続」の欄に示される話者名称「記者」に対応する、「直前」の欄に示される話者名称「記者」及び「主演」の第２確率は「０」となる。

同様にして、第２算出部３６は、操作履歴情報に示される全ての話者名称（「司会者」、「記者」、「主演」）の各々について、第２確率を算出する（図６参照）。

なお、図６中、「＜新規＞」は、直前の発言データに設定された話者名称に対して、次の発言データに設定された話者名称が、操作履歴情報に示される既に設定された話者名称以外の新たな話者名称である場合を示す。第２算出部３６は、この「＜新規＞」についても同様にして、第２確率を算出する。

なお、本実施の形態では、第１算出部３４及び第２算出部３６は、操作履歴情報に示される全ての情報を用いて、第１確率及び第２確率の各々を算出する場合を説明するが、この形態に限られない。

例えば、第１算出部３４及び第２算出部３６は、第２受付部２８で受け付けた話者名称設定対象の発言データに対して、音声データにおいて時系列的に前の予め定めた数の発言データの操作履歴情報を用いて、第１確率及び第２確率を算出してもよい。また、第１算出部３４及び第２算出部３６は、第２受付部２８が受け付けた話者名称設定対象の発言データに対して、音声データにおいて時系列的に前後の予め定めた数件の発言データの発言ＩＤの操作履歴情報を用いて、第１確率及び第２確率を算出してもよい。

図１に戻り、第３算出部３８は、操作履歴情報に示される話者名称の各々について、スコアを算出する。スコアは、指示情報によって示される話者名称設定対象の発言データに対して、操作履歴情報に示される話者名称の各々がユーザによって設定される可能性の高さを示す。すなわち、スコアの高い話者名称ほど、話者名称設定対象の発言データに対して設定される可能性が高い。

第３算出部３８は、第２受付部２８で受け付けた話者名称設定対象の発言データを示す指示情報と、第１算出部３４によって算出された第１確率と、第２算出部３６によって算出された第２確率と、に基づいてスコアを算出する。

具体的には、第３算出部３８は、第２受付部２８で受け付けた話者名称設定対象の発言データの発言ＩＤに対応する話者ＩＤを第１データから読み取る。次に、第３算出部３８は、第１算出部３４で算出された第１確率の内、読み取った該発言ＩＤに対応する話者ＩＤに対応する、話者名称及び第１確率を読み取る。

なお、第１算出部３４が図５に示す第１確率を話者ＩＤ毎に算出したとする。また、第２受付部２８で受け付けた話者名称設定対象の発言データの発言ＩＤが図２の第１データ中の発言ＩＤ「５」であったとする。この場合、該第１データから、該発言ＩＤ「５」に対応する話者ＩＤは「Ｄ」である。この場合には、図５中には、第１確率の記載が無い。このため、第３算出部３８は、発言ＩＤ「５」に対応する話者名称「司会者」、「記者」、「主演」の各々に対応する第１確率を「０」として読み取る。

図７は、第３算出部３８によるスコア算出の説明図である。第３算出部３８は、図７に示すように、操作履歴情報に示される各話者名称（「司会者」、「記者」、「主演」）に対応する第１確率「０」をスコア算出対象として読み取る。また、第３算出部３８は、新規の話者名称が設定される第１確率「１．０」をスコア算出対象として読み取る。

また、第２算出部３６が図６に示す第２確率を算出したとする。また、第２受付部２８で受け付けた話者名称設定対象の発言データの発言ＩＤが「５」であったとする。この場合には、第３算出部３８は、発言ＩＤ「５」の直前の発言データの発言ＩＤ「４」に対応する話者名称を操作履歴情報から読み取る。操作履歴情報が図３に示す状態である場合、第３算出部３８は、発言ＩＤ「４」に対応する話者名称「司会者」を読み取る。そして、第３算出部３８は、第２算出部３６によって算出された第２確率から、直前の発言データの話者名称が「司会者」である場合に、操作履歴情報に示される話者名称の各々が次に設定された第２確率を、スコア算出対象として読み取る。

具体的には、第３算出部３８は、図６に示される第２確率の内、直前の発言データの話者名称が「司会者」である場合に、操作履歴情報に示される各話者名称（「司会者」、「記者」、「主演」）及び新規の話者名称「＜新規＞」の各々が次に設定される第２確率「０」、「１．０」、「０」、「１．０」を、スコア算出対象として読み取る（図７参照）。

そして、第３算出部３８は、各話者名称に対応する第１確率及び第２確率の加算値を、各話者名称に対応するスコアとして算出する（図７参照）。

なお、第３算出部３８は、第１確率及び第２確率の加算値を、各話者名称に対応するスコアとして算出したが、この形態に限られない。例えば、第３算出部３８は、各第１確率及び第２確率に、予め定めた重み係数を乗算した後に加算した加算値を、スコアとして算出してもよい。

なお、第３算出部３８は、上記第１確率及び第２確率の加算値に加えて、話者名称の使用頻度の高い順に高い値や、話者名称の設定されていない期間の短い順に高い値等を更に加算し、スコアとして算出してもよい。

図１に戻り、生成部３０は、第３算出部３８で算出されたスコアの高い順に予め定めた数の話者名称を選択し、選択した話者名称の候補を示す候補リストを生成する。この予め定めた数は、１以上の整数であればよい。例えば、生成部３０は、この予め定めた数として、２または３を予め設定すればよい。

例えば、第３算出部３８が、ユーザによって既に設定された各話者名称のスコアとして、図７に示すスコアを算出したとする。この場合、生成部３０は、スコアの高い順に例えば２つの話者名称（「＜新規＞」、「記者」）を読み取る。そして、生成部３０は、読み取ったこれらの話者名称の候補を示す候補リストを生成する。

なお、生成部３０は、第３算出部３８によって算出されたスコアの高い順に話者名称を並び替えた候補を示す候補リストを生成してもよい。図８は、候補リストのデータ構造の一例を示す模式図である。第３算出部３８が、ユーザによって既に設定された各話者名称のスコアとして、図７に示すスコアを算出したとする。この場合、生成部３０は、図７に示すスコアの高い順に高い優先優位を付与する。そして、生成部３０は、図８に示すように、優先順位の高い順に対応する話者名称を並び替えた候補リストを生成する。

図１に戻り、第１制御部３２は、生成部３０で生成された候補リストを、第２受付部２８で受け付けた話者名称設定対象の発言データの指示情報に含まれる発言ＩＤによって特定される発言データに対応する話者名称の入力欄に表示する制御を行う。

図９は、話者名称を設定するための入力画面における、設定画面５４Ａの一例を示す模式図である。図９に示す例では、音声データにおける、開始時刻が「０：００：００」、「０：００：０５」、「０：００：１１」、「０：００：１８」の各々の発言データについては、既に話者名称が設定済である状態の設定画面を示す。また、図９に示す例では、音声データにおける、開始時刻が「０：００：２０」の発言データを、ユーザが話者名称設定対象の発言データとして指示した場合を示す。また、この開始時刻「０：００：２０」の発言データが、図２に示す第１データにおける、発言ＩＤ「５」の発言データであったとする。

また、操作履歴情報が、図３に示す状態であったとする。この場合、生成部３０は、上述したように、図８に示す候補リストを作成する。このため、第１制御部３２は、図９に示すように、設定画面５４Ａにおける、ユーザによる入力部２０の操作によって指定された話者名称設定対象の発言データ（開始時刻「０：００：２０」）の話者名称の入力欄５８Ａに、候補リスト５８Ｂを表示する。なお、ユーザによる入力部２０の操作によって表示部２２上に表示されたポインタＴの位置が入力欄５８Ａを指示したときに、第１制御部３２は候補リスト５８Ｂを表示してもよい。

図１に戻り、第３受付部３１は、話者名称設定対象の発言データについて、ユーザによって設定された話者名称を入力部２０から受け付ける。ユーザによる入力部２０の操作によって、候補リスト（図９では候補リスト５８Ｂ）の中から話者名称が選択される。なお、話者名称「＜新規＞」が選択された場合には、入力部２０は話者名称の入力を受け付ける。すると、入力部２０は、ユーザによって入力された話者名称、または選択された話者名称を、第３受付部３１へ送信する。第３受付部３１は、入力部２０から、ユーザによって入力された話者名称を受け付けることで、話者名称設定対象の発言データに対応する話者名称をユーザから受け付ける。

図１０は、設定画面５４Ｂの一例を示す模式図である。図９に示す設定画面５４Ａにおいて、ユーザによる入力部２０の操作指示によって、候補リスト５８Ｂ中の話者名称「記者」が選択されたとする。この場合、第１制御部３２は、図１０に示すように、開始時刻「０：００：２０」の発言データに対応する話者名称として「記者」を表示する。

また、開始時刻「０：００：２０」の発言データに対応する話者名称として「記者」を受け付けた第３受付部３１は、受け付けた話者名称「記者」を、該開始時刻「０：００：２０」の発言ＩＤに対応する話者名称として記憶部１８に記憶することで、操作履歴情報を更新する。図１１は、更新後の操作履歴情報のデータ構造の一例を示す模式図である。例えば、第３受付部３１は、図３に示す状態であった操作履歴情報を、図１１に示す操作履歴情報に更新する。

なお、図９に示す例では、第１制御部３２は、話者名称の入力欄５８Ａに、最も上部の欄にテキスト入力用の入力欄を配置し、該テキスト入力用の入力欄の下部に優先順位に応じた順に話者名称を並べた候補リスト５８Ｂを表示する場合を説明した。また、図９に示す例では、話者名称「＜新規＞」については、候補リスト５８Ｂに含めない形態を示した。これによって、ユーザは入力部２０の操作指示によって、テキスト入力用の入力欄に話者名称を直接入力することで話者名称を設定することも出来るし、候補リスト５８Ｂに表示された話者名称の内の何れかを選択することで話者名称を設定することも出来る。

図１２は、候補リストの一例を示す模式図である。図１３は、候補リストの表示状態を示す模式図である。生成部３０が、図１２に示す候補リストを作成したとする。この場合、第１制御部３２は、話者名称「＜新規＞」については、候補リスト５８Ｃに含めない表示形態とする場合、図１３に示す候補リスト５８Ｃを表示してもよい。

なお、候補リスト５８Ｂの表示形態は、図９に示す表示形態に限られない。例えば、第１制御部３２は、優先順位「１」に対応する話者名称が「＜新規＞」である場合に、最も上部の欄にテキスト入力用の入力欄を配置してもよい。

図１４は、候補リストの表示状態を示す模式図である。例えば、生成部３０が、図１２に示す候補リストを生成したとする。この場合、第１制御部３２は、候補リストに示される優先順位の順に、話者名称「＜新規＞」も含めた候補リスト５８Ｄを、表示してもよい（図１４参照）。

次に、情報処理装置１２で実行する情報処理の手順を説明する。

図１５は、情報処理装置１２が実行する情報処理の手順を示すフローチャートである。

まず、第１受付部２４が、音声データを取得部１４から受け付ける（ステップＳ１００）。次に、分割部２５が、上記ステップＳ１００で第１受付部２４が受け付けた音声データを、複数の発言データに分割する（ステップＳ１０２）。

次に、付与部２６が、第１データを生成する（ステップＳ１０４）。すなわち、ステップＳ１０４の処理において、付与部２６は、上記ステップＳ１０２の処理によって分割部２５で分割された各発言データを一意に識別すると共に各発言データの音声データにおける時系列的な順列を示す発言ＩＤを、各発言データに付与する。また、付与部２６は、各発言データに話者ＩＤを付与する。これによって、付与部２６は、第１データを作成し、記憶部１８に記憶する。

次に、第１制御部３２が、ステップＳ１００で受け付けた音声データに含まれる複数の発言データの内、話者名称設定対象の発言データを選択するための入力画面を表示部２２に表示する制御を行う（ステップＳ１０６）。

図１６は、入力画面の一例を示す模式図である。例えば、第１制御部３２は、図１６に示す設定画面５４Ｃを含む入力画面を表示部２２に表示する制御を行う。詳細には、第１制御部３２は、上記ステップＳ１０４で生成された第１データと、記憶部１８に記憶されている操作履歴情報を読み取る。そして、第１制御部３２は、ステップＳ１００で受け付けた音声データに含まれる各発言データを識別可能な情報の一覧と、話者名称の入力欄と、発言内容の入力欄と、を含む設定画面５４Ｃを表示する。図１６に示す例では、各発言データを識別可能な情報の一覧として、音声データにおける各発言データの開始時刻「０：００：００」、「０：００：０５」、「０：００：１１」、「０：００：１８」、及び「０：００：２０」が表示されている。また、開始時刻「０：００：００」、「０：００：０５」、「０：００：１１」、及び「０：００：１８」については、既に話者名称が設定されている。また、始時刻「０：００：００」、「０：００：０５」、「０：００：１１」、「０：００：１８」、及び「０：００：２０」については、発言内容が既に設定された状態にある。

図１５に戻り、次に、第２受付部２８が、話者名称設定対象の発言データを示す指示情報をユーザから受け付けたか否かを判断する（ステップＳ１０８）。第２受付部２８は、ステップＳ１０８で肯定判断（ステップＳ１０８：Ｙｅｓ）するまで否定判断（ステップＳ１０８：Ｎｏ）を繰り返す。第２受付部２８は、ステップＳ１０８で肯定判断（ステップＳ１０８：Ｙｅｓ）すると、ステップＳ１１０へ進む。

次に、生成部３０が、上記ステップＳ１０８の処理によって第２受付部２８で受け付けた指示情報に含まれる発言ＩＤに対応する話者ＩＤを取得する（ステップＳ１１０）。次に、生成部３０は、記憶部１８に記憶されている操作履歴情報を読み取る（ステップＳ１１２）。

そして、生成部３０は、候補リスト生成処理を実行する（ステップＳ１１４）（詳細後述）。ステップＳ１１４の処理によって、候補リストが生成される。

次に、第１制御部３２は、ステップＳ１１４の処理によって生成部３０で生成された候補リストを、上記ステップＳ１０８の処理によってユーザから受け付けた話者名称設定対象の発言データに対応する話者名称の入力欄に表示する（ステップＳ１１６）。ステップＳ１１６の処理によって、例えば、図９に示す候補リスト５８Ｂが表示される。

次に、第３受付部３１が、話者名称設定対象の発言データに対して、ユーザによって設定された話者名称を入力部２０から受け付けたか否かを判断する（ステップＳ１１８）。第３受付部３１は、ステップＳ１１８で肯定判断（ステップＳ１１８：Ｙｅｓ）するまで否定判断（ステップＳ１１８：Ｎｏ）を繰り返す。第３受付部３１は、ステップＳ１１８で肯定判断すると（ステップＳ１１８：Ｙｅｓ）、ステップＳ１２０へ進む。

第１制御部３２は、上記ステップＳ１１８で受け付けた話者名称を、上記ステップＳ１０８で受け付けた話者名称設定対象の発言データの、話者名称の表示欄に表示する（ステップＳ１２０）。

また、第３受付部３１は、上記ステップＳ１１８で受け付けた話者名称を、上記ステップＳ１０８で受け付けた話者名称設定対象の発言データの発言ＩＤと、上記ステップＳ１１０で取得した話者ＩＤと、に対応づけて、操作履歴情報に記憶する（ステップＳ１２２）。ステップＳ１２２の処理によって、記憶部１８に格納されている操作履歴情報が、各発言データにユーザによって話者名称が設定される度に、更新されることとなる。

次に、情報処理装置１２が、情報処理の終了か否かを判断する（ステップＳ１２４）。例えば、情報処理装置１２は、ユーザの操作指示によって入力部２０から情報処理の終了を示す信号を受け付けたか否かを判別することで、ステップＳ１２４の判断を行う。

ステップＳ１２４で否定判断すると（ステップＳ１２４：Ｎｏ）、上記ステップＳ１０６へ戻る。一方、ステップＳ１２４で肯定判断すると（ステップＳ１２４：Ｙｅｓ）、本ルーチンを終了する。

次に、上記ステップＳ１１４で実行する候補リスト生成処理を説明する。

図１７は、生成部３０が実行する候補リスト生成処理の手順を示すフローチャートである。

まず、第１算出部３４が、操作履歴情報に基づいて、第１確率を算出する（ステップＳ２００）。次に、第２算出部３６が、第２確率を算出する（ステップＳ２０２）。

次に、第３算出部３８が、スコアを算出する（ステップＳ２０４）。次に、生成部３０が、第３算出部３８で算出されたスコアの高い順に予め定めた数の話者名称を選択し、選択した話者名称の候補を示す候補リストを生成する（ステップＳ２０６）。そして、本ルーチンを終了する。

以上説明したように、本実施の形態の情報処理装置１２では、操作履歴情報に基づいて、話者名称設定対象の発言データについてユーザが設定する話者名称の候補を示す候補リストを生成する。このため、本実施の形態の情報処理装置１２では、音声データに含まれる１または複数の話者の発言データに対して、話者名称を容易に設定可能な情報を提供することができる。

また、本実施の形態の情報処理装置１２では、話者名称設定対象の発言データについてユーザが設定する可能性の高さを示すスコアを、操作履歴情報に示される話者名称毎に算出する。そして、情報処理装置１２は、スコアの高い話者名称順に配列した候補リストを生成する。

このため、音声データに含まれる１または複数の話者の発言データに対して、話者名称を更に容易に設定可能な情報を提供することができる。

また、本実施の形態の情報処理装置１２では、話者名称設定対象の発言データに対して時系列的に直前の発言データ等に基づいて、上記コストを算出する。

このため、本実施の形態の情報処理装置１２では、候補リストを、音声データにおける話者交代の流れを考慮したものとなる。従って、情報処理装置１２では、講演、インタビュー、及び記者会見等の、単純な話者交代の流れを有する音声データに含まれる発言データの各々に話者名称を付与する場合に、特に好適に適用される。

また、本実施の形態の情報処理装置１２によれば、話者の役割や所属する団体名などの名称を複数の話者に一様に付与したい場合など、ユーザが求める粒度が個人ではない場合にも、当該粒度に応じた候補リストを作成することができる。そのため、ユーザが話者名称を修正する負担を軽減することができる。

（実施の形態２）
本実施の形態では、ユーザによって選択された発言データを更に用いて、候補リストを生成する。

図１８は、本実施の形態の情報処理システム１０Ａの機能的構成を示すブロック図である。情報処理システム１０Ａは、取得部１４、入力部２０、表示部２２、情報処理装置１２Ａ、及び記憶部１８を含む。取得部１４、入力部２０、表示部２２、及び記憶部１８は、実施の形態１と同様である。

情報処理装置１２Ａは、第１受付部２４、分割部２５、付与部２６、第２受付部２８、第３受付部３１、生成部３０Ａ、及び第１制御部３２を含む。第１受付部２４、分割部２５、付与部２６、第２受付部２８、第３受付部３１、及び第１制御部３２は、実施の形態１と同様である。

生成部３０Ａは、第１算出部３４、第２算出部３６、第３算出部３８Ａ、第４算出部４０、抽出部４２、及び第１取得部４１を含む。第１算出部３４及び第２算出部３６は、実施の形態１と同様である。

第１取得部４１は、第１受付部２４で受け付けた音声データに含まれる各発言データのテキストデータを取得する。第１取得部４１は、分割部２５で分割された各発言データを、音声データからテキストデータを生成する公知の技術を用いてテキスト化することで、各発言データのテキストデータを取得する。

なお、第１取得部４１は、分割部２５で分割された各発言データについて、ユーザによって設定された発言内容を示すテキストデータを、各発言データのテキストデータとして取得してもよい。なお、第１取得部４１は、分割部２５で分割された各発言データについて、ユーザによって設定された発言内容を示すテキストデータを、各発言データのテキストデータとして取得することが好ましい。

抽出部４２は、第１取得部４１で取得した各発言データに対応するテキストデータの内、少なくとも、第２受付部２８で受け付けた話者名称設定対象の発言データのテキストデータと、該発言データの直前の発言データのテキストデータと、を読み取る。

なお、抽出部４２は、第２受付部２８で受け付けた話者名称設定対象の発言データのテキストデータと、該発言データより前の発言データのテキストデータの内の少なくとも１つと、を読み取ってもよい。しかし、候補リストに示す話者名称の精度向上の観点から、抽出部４２は、第１取得部４１で取得した各発言データに対応するテキストデータの内、第２受付部２８で受け付けた話者名称設定対象の発言データのテキストデータと、該発言データの直前の発言データのテキストデータと、を読み取ることが好ましい。

次に、抽出部４２は、第２受付部２８で受け付けた話者名称設定対象の発言データのテキストデータと、該発言データの直前の発言データのテキストデータと、を解析し、これらのテキストデータに含まれる予め定めた話者特定情報を抽出する。

なお、抽出部４２は、第２受付部２８で受け付けた話者名称設定対象の発言データと、該発言データの直前の発言データと、を解析し、これらの発言データに含まれる話者特定情報を抽出してもよい。

話者特定情報とは、話者を特定する情報である。本実施の形態では、話者特定情報は、ユーザによって設定される話者名称に属する、話者を特定可能な１または複数の情報である。本実施の形態では、記憶部１８は、ユーザによって設定された話者名称と、対応する話者名称に属する１または複数の話者特定情報と、を対応づけて更に記憶する。なお、話者名称、及び各話者名称に属する話者特定情報は、ユーザによる入力部２０の操作指示によって予め設定され、記憶部１８に予め記憶すればよい。また、話者名称、及び話者名称に属する話者特定情報は、ユーザによる入力部２０の操作指示によって変更可能である。

例えば、記憶部１８は、話者名称として「記者」を予め記憶する。また、例えば、記憶部１８は、話者名称「記者」に対応する話者特定情報として、「Ｐ新聞」、「Ｑ」、「Ｒ新聞」、「Ｓ」を記憶する。なお、「Ｑ」は、Ｐ新聞の社員の名称を示す。また、「Ｓ」は、Ｒ新聞の社員の名称を示す。このように、本実施の形態では、記憶部１８は、各話者名称に属する話者特定情報を予め記憶している。

なお、各話者名称に属する話者特定情報は、操作履歴情報に基づいて各発言データのテキストデータから抽出した固有名詞などの氏名・団体名称を、動的に対応付けて設定してもよい。例えば、記憶部１８は、話者名称として「記者」と、話者特定情報として「Ｐ新聞」、「Ｑ」を記憶する。

抽出部４２は、第２受付部２８で受け付けた話者名称設定対象の発言データのテキストデータと、該発言データの直前の発言データのテキストデータと、を解析し、これらのテキストデータに含まれる予め定めた話者特定情報を抽出する。

第４算出部４０は、操作履歴情報及び抽出された話者特定情報に基づいて、第３確率を算出する。第３確率は、少なくとも話者名称設定対象の発言データに、操作履歴情報に示される各話者名称に属する話者特定情報が含まれている確率を示す。

なお、第３確率は、少なくとも話者名称設定対象の発言データに、操作履歴情報に示される各話者名称に属する話者特定情報が含まれている確率を示すが、話者名称設定対象の発言データ及び該発言データの直前の発言データの双方に、操作履歴情報に示される各話者名称に属する話者特定情報が含まれている確率を示すことが好ましい。

図１９は、第３確率の説明図である。例えば、第２受付部２８で受け付けた話者名称設定対象の発言データが、図１６に示す開始時刻「０：００：２０」の発言データであったとする。また、該発言データに対して、ユーザによる入力部２０の操作によって、発言内容として「Ｒ新聞のＳです。演技に厳しいＵ監督ですが、演技指導はどうですか？」のテキストデータが設定されていたとする。また、該発言データの直前の発言データのテキストデータが、「次の方、挙手願います。はい。あちらの方、どうぞ。」であったとする。

この場合、抽出部４２は、これらのテキストデータから、予め登録した話者特定情報である、「Ｒ新聞」、「Ｓ」を抽出する。そして、第４算出部４０は、操作履歴情報に示される各話者名称の各々について、各話者名称に属する話者特定情報が抽出部４２で抽出された第３確率を算出する。この場合、第４算出部４０は、話者名称「記者」に対応する第３確率として、話者名称「記者」に属する話者特定情報であり且つ抽出部４２で抽出された話者特定情報である「Ｒ新聞」及び「Ｓ」について、第３確率「１．０」を算出する。また、第４算出部４０は、話者名称「司会者」及び「主演」の各々に属する話者特定情報が、抽出部４２で読み取ったテキストデータから抽出されなかった場合には、これらの話者名称の各々に対応づけて第３確率「０」を算出する。

図１８に戻り、第３算出部３８Ａは、スコアを算出する。本実施の形態では、第３算出部３８Ａは、第１算出部３４によって算出された第１確率と、第２算出部３６によって算出された第２確率と、第４算出部４０によって算出された第３確率と、に基づいてスコアを算出する。

図２０は、第３算出部３８Ａによるスコア算出の説明図である。第３算出部３８Ａは、実施の形態１の第３算出部３８と同様にして、操作履歴情報に示される話者名称毎の第１確率、及び第２確率を読み取る。また、第３算出部３８Ａは、操作履歴情報に示される各話者名称の各々について、第４算出部４０で算出された第３確率を読み取る。そして、第３算出部３８Ａは、操作履歴情報に示される話者名称毎に、各話者名称に対応する第１確率、第２確率、第３確率の加算値を、各話者名称に対応するスコアとして算出する（図２０参照）。なお、実施の形態１と同様に、第１確率、第２確率、及び第３確率の予め定めた重み付値を乗算した値の加算値を、スコアとして算出してもよい。

図１８に戻り、生成部３０Ａは、第３算出部３８Ａで算出されたスコアの高い順に予め定めた数の話者名称を選択し、選択した話者名称の候補を示す候補リストを生成する。

次に、情報処理装置１２Ａで実行する情報処理の手順を説明する。

図２１は、情報処理装置１２Ａが実行する情報処理の手順を示すフローチャートである。

情報処理装置１２Ａでは、実施の形態１におけるステップＳ１００〜ステップＳ１１２と同様の処理を行う（図１５参照）。次に、第１取得部４１が、各発言データに対応するテキストデータを取得する（ステップＳ１１３０）。

次に、生成部３０Ａが、後述する候補リスト生成処理を実行する（ステップＳ１１４０）。次に、情報処理装置１２Ａでは、実施の形態１と同様にしてステップＳ１１６〜ステップＳ１２４の処理を実行し、本ルーチンを終了する。

次に、生成部３０Ａが実行する候補リスト生成処理（ステップＳ１１４０）を説明する。

図２２は、生成部３０Ａが実行する候補リスト生成処理の手順を示すフローチャートである。

まず、第１算出部３４が実施の形態１のステップＳ２００（図１７参照）と同様にして第１確率を算出する（ステップＳ２０００）。次に、第２算出部３６が、実施の形態１のステップＳ２０２（図１７参照）と同様にして第２確率を算出する（ステップＳ２０２０）。

次に、抽出部４２が、第１取得部４１で取得した各発言データに対応するテキストデータの内、少なくとも、第２受付部２８で受け付けた話者名称設定対象の発言データのテキストデータと、該発言データの直前の発言データのテキストデータと、を解析し、これらのテキストデータに含まれる予め定めた話者特定情報を抽出する（ステップＳ２０３０）。

次に、第４算出部４０が、操作履歴情報及び抽出された話者特定情報に基づいて、第３確率を算出する（ステップＳ２０４０）。次に、第３算出部３８Ａが、第１算出部３４によって算出された第１確率と、第２算出部３６によって算出された第２確率と、第４算出部４０によって算出された第３確率と、に基づいてスコアを算出する（ステップＳ２０６０）。

次に、生成部３０Ａが、第３算出部３８Ａで算出されたスコアの高い順に予め定めた数の話者名称を選択し、選択した話者名称の候補を示す候補リストを生成する（ステップＳ２０８０）。そして、本ルーチンを終了する。

以上説明したように、本実施の形態の情報処理システム１０Ａは、話者名称設定対象の発言データまたは該発言データのテキストデータを更に用いて、候補リストを生成する。

このため、情報処理システム１０Ａは、話者設定対象の発言データ中に、該発言データの話者を特定する話者特定情報や、直前の発言データに次の発言データの話者を示す話者特定情報が含まれる場合、これらの話者特定情報を加味したスコアを算出することができる。

また、実施の形態１で得られる効果と共に、候補リストに挙げる話者名称の精度を更に向上させることができる。また、実施の形態１で得られる効果に加えて更に、ユーザに対して容易に話者名称を設定するための情報を提供することができる。

また、本実施の形態の情報処理装置１２Ａは、話者名称設定対象の発言データまたは該発言データのテキストデータに含まれる話者特定情報を用いて、候補リストを生成する。このため、情報処理装置１２Ａは、話者交代が不規則であり、且つ司会者などによって発言権の管理が行われている討論会等の音声データに含まれる発言データに話者名称を設定する場合であっても、効率良く話者名称を設定するための情報を提供することができる。

（実施の形態３）
本実施の形態では、音声データの再生履歴情報を更に用いて、候補リストを生成する。

図２３は、本実施の形態の情報処理システム１０Ｂの機能的構成を示すブロック図である。情報処理システム１０Ｂは、取得部１４、入力部２０、表示部２２、情報処理装置１２Ｂ、記憶部１８Ｂ、及び再生部４６を含む。取得部１４、入力部２０、及び表示部２２は、実施の形態１と同様である。

再生部４６は、音声データを再生する公知の再生装置である。なお、情報処理装置１２Ｂは、再生部４６への音声データの再生時には、音声データにおける現在の再生位置を示す情報を表示部２２に表示する。また、情報処理装置１２Ｂは、ユーザによる入力部２０の操作指示によって指示された発言データを、選択的に再生部４６で再生する。

情報処理装置１２Ｂは、第１受付部２４、分割部２５、付与部２６、第２受付部２８、第３受付部３１、生成部３０Ｂ、第１制御部３２、及び第２制御部４９を含む。第１受付部２４、分割部２５、付与部２６、第２受付部２８、第３受付部３１、及び第１制御部３２は、実施の形態１と同様である。第２制御部４９は、再生部４６への音声データの再生を制御する。また、第２制御部４９は、ユーザによる入力部２０の操作指示によって音声データに含まれる各発言データが再生対象として選択的に指示されることで、指示された発言データを選択的に再生部４６で再生する。このとき、第２制御部４９は、再生した発言データの再生回数を、再生履歴情報として記憶部１８Ｂに記憶する。

記憶部１８Ｂは、実施の形態１で説明した第１データ、操作履歴情報等の各種情報に加えて更に、現在より所定回数前までの再生操作についての、各発言データの再生回数を示す再生履歴情報を記憶する。第２制御部４９は、各発言データを再生する度に、記憶部１８Ｂに記憶されている再生履歴情報を更新する。

生成部３０Ｂは、第１算出部３４、第２算出部３６、第３算出部３８Ｂ、第５算出部６０、及び第２取得部６２を含む。第１算出部３４及び第２算出部３６は、実施の形態１と同様である。

第２取得部６２は、第１受付部２４で取得した音声データに含まれる発言データ毎の再生回数を示す再生履歴情報を取得する。

第５算出部６０は、操作履歴情報に示される話者名称の各々について、各話者名称に対応する発言データの再生回数に基づいて、各話者名称に対応する発言データの再生確率を示す第４確率を算出する。

図２４は、第５算出部６０が話者名称毎に算出した第４確率の説明図である。図２４に示すように、第５算出部６０は、操作履歴情報に示される話者名称毎に、再生された回数が多いほど高い第４確率を算出する。

図２３に戻り、第３算出部３８Ｂは、第１確率、第２確率、及び第４確率に基づいて、操作履歴情報に示される話者名称の各々についてユーザによって設定される可能性の高さを示すスコアを算出する。

図２５は、第３算出部３８Ｂによるスコア算出の説明図である。第３算出部３８Ｂは、実施の形態１の第３算出部３８と同様にして、操作履歴情報に示される話者名称毎の第１確率、及び第２確率を読み取る。また、第３算出部３８Ｂは、操作履歴情報に示される各話者名称の各々について、第５算出部６０で算出された第４確率を読み取る。そして、第３算出部３８Ｂは、操作履歴情報に示される各話者名称毎に、各話者名称に対応する第１確率、第２確率、第４確率の加算値を、各話者名称に対応するスコアとして算出する（図２５参照）。

図２３に戻り、生成部３０Ｂは、第３算出部３８Ｂで算出されたスコアの高い順に予め定めた数の話者名称を選択し、選択した話者名称の候補を示す候補リストを生成する。

次に、情報処理装置１２Ｂで実行する情報処理の手順を説明する。

図２６は、情報処理装置１２Ｂが実行する情報処理の手順を示すフローチャートである。

情報処理装置１２Ｂでは、実施の形態１におけるステップＳ１００〜ステップＳ１１２と同様の処理を行う（図１５参照）。次に、第２取得部６２が、第１受付部２４で取得した音声データに含まれる発言データ毎の再生回数を示す再生履歴情報を取得する（ステップＳ３０００）。

次に、生成部３０Ｂが、後述する候補リスト生成処理を実行する（ステップＳ３０２０）。次に、情報処理装置１２Ｂでは、実施の形態１と同様にしてステップＳ１１６〜ステップＳ１２４の処理を実行し、本ルーチンを終了する。

次に、生成部３０Ｂが実行する候補リスト生成処理（ステップＳ３０２０）を説明する。

図２７は、生成部３０Ｂが実行する候補リスト生成処理の手順を示すフローチャートである。

まず、第１算出部３４が実施の形態１のステップＳ２００（図１７参照）と同様にして第１確率を算出する（ステップＳ４０００）。次に、第２算出部３６が、実施の形態１のステップＳ２０２（図１７参照）と同様にして第２確率を算出する（ステップＳ４０２０）。

次に、第２取得部６２が、音声データに含まれる各発言データの再生履歴情報を取得する（ステップＳ４０４０）。次に、第５算出部６０が、第４確率を算出する（ステップＳ４０６０）。

次に、第３算出部３８Ｂが、第１算出部３４によって算出された第１確率と、第２算出部３６によって算出された第２確率と、第５算出部６０によって算出された第４確率と、に基づいてスコアを算出する（ステップＳ４０８０）。

次に、生成部３０Ｂが、第３算出部３８Ｂで算出されたスコアの高い順に予め定めた数の話者名称を選択し、選択した話者名称の候補を示す候補リストを生成する（ステップＳ４０９０）。そして、本ルーチンを終了する。

以上説明したように、本実施の形態の情報処理システム１０Ｂでは、音声データに含まれる発言データの直近の再生回数が多いほど高いスコアを算出する。このため、本実施の形態の情報処理システム１０Ｂは、ユーザによって手動で行われた声質の類似性を確認する作業対象となった発話データの話者名称を、優先的に候補リストに挙げることができる。

このため、実施の形態１の効果に加えて更に、話者の発言データに対して、話者名称を容易に設定可能な情報を提供することができる。

（実施の形態４）
上記実施の形態１〜実施の形態３では、情報処理装置１２（情報処理装置１２Ａ、情報処理装置１２Ｂ）で、候補リストの生成及び表示を行う場合を説明したが、これに限定されるものではない。

すなわち、情報処理装置１２（情報処理装置１２Ａ、情報処理装置１２Ｂ）で行っていた処理の何れかを、ネットワークを介して接続された他の装置で実行してもよい。

その一例として、本実施の形態の情報処理システム１１では、情報処理装置１２（情報処理装置１２Ａ、情報処理装置１２Ｂ）の機能の一部を、ネットワーク上のサーバ装置上に実装している。

図２８は、本実施の形態の情報処理システム１１の模式図である。

情報処理システム１１は、ホスト装置７４と、サーバ装置７０とが、インターネット等のネットワーク７２を介して接続されている。

ホスト装置７４は、ＣＰＵ、ＲＯＭ、ＲＡＭ、及びＨＤＤ等がバスにより相互に接続され、通常のコンピュータを利用したハードウェア構成である。ホスト装置７４は、取得部１４Ｃ、入力部２０Ｃ、表示部２２Ｃ、通信部７８Ｃ、及び制御部７９Ｃを備える。取得部１４Ｃ、入力部２０Ｃ、及び表示部２２Ｃは、実施の形態１の取得部１４、入力部２０及び表示部２２と各々同様である。

通信部７８Ｃは、ネットワーク７２を介してサーバ装置７０と各種データを送受信する通信インターフェースである。本実施の形態では、通信部７８Ｃは、取得部１４Ｃで取得した音声データ、ユーザによる入力部２０Ｃの操作指示によって入力された話者名称設定対象の発言データを示す指示情報、ユーザによる入力部２０Ｃの操作指示によって入力された話者名称や発言内容等の各種情報を、サーバ装置７０へ送信する。また、通信部７８Ｃは、サーバ装置７０から、表示部２２Ｃへ表示するための各種入力画面を受信する。制御部７９Ｃは、ホスト装置７４の装置各部を制御する。制御部７９Ｃは、サーバ装置７０から受信した入力画面を表示部２２Ｃに表示する制御を行う。また、制御部７９Ｃは、入力部２０Ｃを介して入力された各種情報を、通信部７８Ｃを介してサーバ装置７０へ送信する制御を行う。

サーバ装置７０は、ＣＰＵ、ＲＯＭ、ＲＡＭ、及びＨＤＤ等がバスにより相互に接続され、通常のコンピュータを利用したハードウェア構成である。サーバ装置７０は、情報処理部１２Ｃ、通信部７６Ｃ、及び記憶部１８Ｃを備える。情報処理部１２Ｃは、実施の形態１の情報処理装置１２と同様の構成である。詳細には、情報処理部１２Ｃは、第１受付部２４Ｃ、分割部２５Ｃ、付与部２６Ｃ、第２受付部２８Ｃ、第３受付部３１Ｃ、及び生成部３０Ｃを備える。第１受付部２４Ｃ、分割部２５Ｃ、付与部２６Ｃ、第２受付部２８Ｃ、第３受付部３１Ｃ、及び生成部３０Ｃは、実施の形態１の第１受付部２４、分割部２５、付与部２６、第２受付部２８、第３受付部３１、及び生成部３０の各々と同様の構成である。

記憶部１８Ｃは、実施の形態１の記憶部１８と同様の構成である。通信部７６Ｃは、ネットワーク７２を介してホスト装置７４との間で各種情報を送受信するためのインターフェースである。本実施の形態では、通信部７６Ｃは、ホスト装置７４へ、生成部３０Ｃで生成した候補リストを含む入力画面や、話者名称設定対象の発言データを選択するための入力画面等、情報処理部１２Ｃで生成した各種入力画面をホスト装置７４へ送信する。また、通信部７６Ｃは、音声データ、話者名称設定対象の発言データを示す指示情報、入力された話者名称や発言内容等の各種情報を、ホスト装置７４から受信する。

なお、サーバ装置７０では、実施の形態１において情報処理装置１２（図１参照）が入力部２０（図１参照）や取得部１４（図１参照）から取得していた各種情報をホスト装置７４から受信する点と、サーバ装置７０の情報処理部１２Ｃで生成した入力画面や候補リスト等の各種情報を表示部２２（図１参照）に替えてホスト装置７４へ送信する以外は、実施の形態１の情報処理装置１２と同様の処理を行う。

また、ホスト装置７４は、実施の形態１において情報処理装置１２で行っていた各種処理をサーバ装置７０側で行い、ホスト装置７４では、各種情報の取得と表示のみを行う以外は、実施の形態１の情報処理装置１２と同様の処理を行う。

次に、サーバ装置７０で実行する処理を説明する。

図２９は、サーバ装置７０で実行する情報処理の手順を示すフローチャートである。

まず、第１受付部２４Ｃが、通信部７６Ｃ及びネットワーク７２を介して、音声データをホスト装置７４から受け付ける（ステップＳ５００）。次に、分割部２５Ｃが、上記ステップＳ５００で第１受付部２４が受け付けた音声データを、複数の発言データに分割する（ステップＳ５０２）。

次に、付与部２６Ｃが、第１データを生成する（ステップＳ５０４）。なお、第１データの生成は、実施の形態１と同様である。そして、付与部２６Ｃは、作成した第１データを、記憶部１８Ｃに記憶する。

次に、通信部７６Ｃが、ステップＳ５００で受け付けた音声データに含まれる複数の発言データの内、話者名称設定対象の発言データを選択するための入力画面、及び第１データをホスト装置７４へ送信する（ステップＳ５０６）。

第２受付部２８Ｃが、話者名称設定対象の発言データを示す指示情報を、ホスト装置７４から受け付けたか否かを判断する（ステップＳ５０８）。第２受付部２８Ｃは、ステップＳ５０８で肯定判断（ステップＳ５０８：Ｙｅｓ）するまで否定判断（ステップＳ５０８：Ｎｏ）を繰り返す。第２受付部２８Ｃは、ステップＳ５０８で肯定判断（ステップＳ５０８：Ｙｅｓ）すると、ステップＳ５１０へ進む。

次に、生成部３０Ｃが、上記ステップＳ５０８の処理によって受け付けた指示情報に含まれる発言ＩＤに対応する話者ＩＤを記憶部１８Ｃから取得する（ステップＳ５１０）。次に、生成部３０Ｃは、記憶部１８Ｃに記憶されている操作履歴情報を読み取る（ステップＳ５１２）。

そして、生成部３０Ｃは、候補リスト生成処理を実行する（ステップＳ５１４）。なお、ステップＳ５１４の候補リスト生成処理は、実施の形態１の候補リスト生成処理（図１５のステップＳ１１４参照）と同様である。

次に、通信部７６Ｃが、ステップＳ５１４の処理によって生成部３０Ｃで生成された候補リストを、話者名称設定対象の発言データに対応する話者名称の入力欄に表示した入力画面を、ホスト装置７４へ送信する（ステップＳ５１６）。

次に、第３受付部３１Ｃが、話者名称設定対象の発言データに対して、ユーザによって設定された話者名称をホスト装置７４から受け付けたか否かを判断する（ステップＳ５１８）。第３受付部３１Ｃは、ステップＳ５１８で肯定判断（ステップＳ５１８：Ｙｅｓ）するまで否定判断（ステップＳ５１８：Ｎｏ）を繰り返す。第３受付部３１Ｃは、ステップＳ５１８で肯定判断すると（ステップＳ５１８：Ｙｅｓ）、ステップＳ５２０へ進む。

通信部７６Ｃは、上記ステップＳ５１８で受け付けた話者名称をホスト装置７４へ送信する（ステップＳ５２０）。

そして、第３受付部３１Ｃは、上記ステップＳ５１８で受け付けた話者名称を、上記ステップＳ５０８で受け付けた話者名称設定対象の発言データの発言ＩＤに対応づけて、操作履歴情報に記憶する（ステップＳ５２２）。ステップＳ５２２の処理によって、記憶部１８Ｃに格納されている操作履歴情報が、ユーザによって発言データに話者名称が設定される度に、更新されることとなる。

次に、情報処理部１２Ｃが、情報処理の終了か否かを判断する（ステップＳ５２４）。例えば、情報処理部１２Ｃは、ホスト装置７４から情報処理の終了を示す信号を受け付けたか否かを判別することで、ステップＳ５２４の判断を行う。

ステップＳ５２４で否定判断すると（ステップＳ５２４：Ｎｏ）、上記ステップＳ５０６へ戻る。一方、ステップＳ５２４で肯定判断すると（ステップＳ５２４：Ｙｅｓ）、本ルーチンを終了する。

次に、ホスト装置７４で実行する情報処理を説明する。

図３０は、ホスト装置７４が実行する情報処理の手順を示すフローチャートである。

まず、取得部１４Ｃが、音声データを受け付ける（ステップＳ６００）。次に、通信部７８ＣがステップＳ６００で受け付けた音声データをサーバ装置７０へ送信する（ステップＳ６０２）。

次に、通信部７８Ｃが、入力画面及び第１データをサーバ装置７０から受信するまで否定判断を繰り返す（ステップＳ６０４：Ｎｏ）。ステップＳ６０４で肯定判断すると（ステップＳ６０４：Ｙｅｓ）、ステップＳ６０６へ進む。

ステップＳ６０６では、制御部７９Ｃが、ステップＳ６０４で受け付けた入力画面を表示部２２Ｃに表示する制御を行う（ステップＳ６０６）。

次に、制御部７９Ｃが、話者名称設定対象の発言データを示す指示情報をユーザから受け付けたか否かを判断する（ステップＳ６０８）。制御部７９Ｃは、ユーザによる入力部２０Ｃの操作指示によって該入力部２０Ｃから指示情報を受け付けたか否かを判別することで、ステップＳ６０８の判断を行う。

制御部７９Ｃは、ステップＳ６０８で肯定判断（ステップＳ６０８：Ｙｅｓ）するまで否定判断（ステップＳ６０８：Ｎｏ）を繰り返す。制御部７９Ｃは、ステップＳ６０８で肯定判断（ステップＳ６０８：Ｙｅｓ）すると、ステップＳ６１０へ進む。

次に、通信部７８Ｃが、ステップＳ６０８で受け付けた指示情報を、サーバ装置７０へ送信する（ステップＳ６１０）。

次に、通信部７８Ｃが、候補リストを話者名称設定対象の発言データに対応する話者名称の入力欄に表示した入力画面を、サーバ装置７０から受信するまで否定判断を繰り返す（ステップＳ６１２：Ｎｏ）。ステップＳ６１２で肯定判断すると（ステップＳ６１２：Ｙｅｓ）、ステップＳ６１４へ進む。次に、制御部７９Ｃが、ステップＳ６１２で受信した入力画面を表示部２２Ｃに表示する（ステップＳ６１４）。これによって、表示部２２Ｃは、ステップＳ６０８の処理によってユーザから受け付けた話者名称設定対象の発言データに対応する話者名称の入力欄に候補リストを表示する。

次に、制御部７９Ｃが、話者名称設定対象の発言データに対して、ユーザによって設定された話者名称を入力部２０Ｃから受け付けたか否かを判断する（ステップＳ６１６）。制御部７９Ｃは、ステップＳ６１６で肯定判断（ステップＳ６１６：Ｙｅｓ）するまで否定判断（ステップＳ６１６：Ｎｏ）を繰り返す。制御部７９Ｃは、ステップＳ６１６で肯定判断すると（ステップＳ６１６：Ｙｅｓ）、ステップＳ６１８へ進む。

次に、通信部７８ＣがステップＳ６１６で受け付けた話者名称をサーバ装置７０へ送信する（ステップＳ６１８）。また、制御部７９Ｃは、ステップＳ６１６で受け付けた話者名称を、上記ステップＳ６０８で受け付けた話者名称設定対象の発言データの、話者名称の表示欄に表示する（ステップＳ６２０）。

次に、制御部７９Ｃが、情報処理の終了か否かを判断する（ステップＳ６２２）。例えば、制御部７９Ｃは、ユーザの操作指示によって入力部２０Ｃから情報処理の終了を示す信号を受け付けたか否かを判別することで、ステップＳ６２２の判断を行う。

ステップＳ６２２で否定判断すると（ステップＳ６２２：Ｎｏ）、上記ステップＳ６０４へ戻る。一方、ステップＳ６２２で肯定判断すると（ステップＳ６２２：Ｙｅｓ）、本ルーチンを終了する。

以上説明したように、本実施の形態では、情報処理装置１２（情報処理装置１２Ａ、情報処理装置１２Ｂ）の機能の一部を、ネットワーク７２上のサーバ装置７０上に実装し、サーバ装置７０側で候補リストの生成を行う。このため、実施の形態１の効果の他、複数のホスト装置７４が存在する場合であっても、操作履歴情報の更新等を一括して行うことができる。

（実施の形態５）
上記に説明した実施の形態１〜実施の形態４の情報処理装置１２、情報処理装置１２Ａ、情報処理装置１２Ｂ、サーバ装置７０、及びホスト装置７４は、ＣＰＵ、ＲＯＭ、ＲＡＭ、及びＨＤＤ等がバスにより相互に接続されており、通常のコンピュータを利用したハードウェア構成となっている。

本実施の形態１〜実施の形態４の情報処理装置１２、情報処理装置１２Ａ、情報処理装置１２Ｂ、サーバ装置７０、及びホスト装置７４で実行される上記情報処理を実行するためのプログラムは、ＲＯＭ等に予め組み込んで提供される。

なお、本実施の形態１〜実施の形態４の情報処理装置１２、情報処理装置１２Ａ、情報処理装置１２Ｂ、サーバ装置７０、及びホスト装置７４で実行されるプログラムは、これらの装置にインストール可能な形式または実行可能な形式のファイルでＣＤ−ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等のコンピュータで読み取り可能な記録媒体に記録されて提供するように構成してもよい。

また、本実施の形態１〜実施の形態４の情報処理装置１２、情報処理装置１２Ａ、情報処理装置１２Ｂ、サーバ装置７０、及びホスト装置７４で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施の形態１〜実施の形態４の情報処理装置１２、情報処理装置１２Ａ、情報処理装置１２Ｂ、サーバ装置７０、及びホスト装置７４における上記情報処理を実行するためのプログラムを、インターネット等のネットワーク経由で提供または配布するように構成してもよい。

本実施形態１〜実施の形態４の情報処理装置１２、情報処理装置１２Ａ、情報処理装置１２Ｂ、サーバ装置７０、及びホスト装置７４で実行される上記情報処理を実行するためのプログラムは、上述した各部が主記憶装置上に生成されるようになっている。

なお、上記ＨＤＤに格納されている各種情報、すなわち記憶部１８、記憶部１８Ａ、及び記憶部１８Ｂに格納されている各種情報は、外部装置（例えばサーバ）に格納してもよい。この場合には、該外部装置と各情報処理装置１２、情報処理装置１２Ａ、情報処理装置１２Ｂ、サーバ装置７０、及びホスト装置７４とを、ネットワーク等を介して接続した構成とすればよい。

なお、上記には、本発明のいくつかの実施の形態を説明したが、これらの実施の形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施の形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施の形態やその変形は、発明の範囲や要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１２、１２Ａ、１２Ｂ情報処理装置
２４第１受付部
２５分割部
２６付与部
２８第２受付部
３０生成部
３４第１算出部
３６第２算出部
３８、３８Ａ、３８Ｂ第３算出部
４０第４算出部
５０第５算出部
５２第２取得部

Claims

話者の発言データを含む音声データを受け付ける第１受付部と、
前記音声データを前記発言データ毎に分割する分割部と、
前記発言データの音響的特徴に基づいて、前記発言データに話者識別情報を付与する付与部と、
前記音声データに含まれる前記発言データの内、話者名称設定対象の発言データを示す指示情報を、ユーザから受け付ける第２受付部と、
少なくとも、前記発言データの発言識別情報と、付与された前記話者識別情報と、前記発言識別情報によって特定される前記発言データに対してユーザによって設定された話者名称と、を対応づけた操作履歴情報に基づいて、前記指示情報によって特定される前記発言データにユーザが設定する話者名称の候補を、ユーザによって設定される可能性の高さを示すスコアの高い順に配列した候補リストを生成する生成部と、
前記候補リストを前記指示情報によって特定される前記発言データに対応する話者名称の入力欄に表示する第１制御部と、
を備える情報処理装置。
前記生成部は、前記操作履歴情報に基づいて、前記候補とする話者名称と、前記指示情報によって特定される発言データに該話者名称の設定される確率の高さと、の対応を示す前記候補リストを生成する、請求項１に記載の情報処理装置。
前記発言識別情報は、前記発言データを一意に識別すると共に、前記音声データにおける前記発言データの時系列的な順列を示し、
前記生成部は、
前記操作履歴情報に示される前記話者識別情報と前記話者名称との対応関係から、該話者識別情報に該話者名称が対応づけられた第１確率を算出する第１算出部と、
前記操作履歴情報に示される前記話者名称の各々が、時系列的に直前の発言データに対応する話者名称の次に設定された第２確率を算出する第２算出部と、
前記指示情報によって特定される前記発言データに対応する前記話者識別情報、前記第１確率、及び前記第２確率に基づいて、前記操作履歴情報に示される前記話者名称の各々について、前記話者名称設定対象の前記発言データに対して前記スコアを算出する第３算出部と、
を含み、
前記第３算出部によって算出された前記スコアの高い順に予め定めた数の話者名称を選択し、選択した話者名称の前記候補を示す前記候補リストを生成する、
請求項１または請求項２に記載の情報処理装置。
前記生成部は、前記第３算出部によって算出された前記スコアの高い順に予め定めた数の話者名称を選択し、選択した話者名称を前記スコアの高い順に配列した前記候補リストを生成する、請求項３に記載の情報処理装置。
前記操作履歴情報は、
前記発言識別情報によって特定される前記発言データに対して、ユーザが設定したテキストデータをさらに含み、
前記生成部は、
少なくとも前記話者名称設定対象の発言データから、前記操作履歴情報に示される前記話者名称の各々に属する話者特定情報を抽出する抽出部と、
少なくとも前記話者名称設定対象の発言データのテキストデータに、前記操作履歴情報に示される各話者名称に属する前記話者特定情報が含まれる第３確率を算出する第４算出部と、
を更に含み、
前記第３算出部は、
前記指示情報によって特定される前記発言データに対応する前記話者識別情報、前記第１確率、前記第２確率、及び前記第３確率に基づいて、前記操作履歴情報に示される前記話者名称の各々について前記スコアを算出する、
請求項３に記載の情報処理装置。
前記操作履歴情報は、
前記発言識別情報によって特定される前記発言データ毎の、現在より所定回数前までの再生操作についての再生回数をさらに含み、
前記生成部は、
前記操作履歴情報に基づいて、前記音声データに含まれる前記発言データ毎の最近の再生回数を取得する第２取得部と、
前記操作履歴情報に示される前記話者名称の各々について、各話者名称に対応する前記発言データの再生回数に基づいて、各話者名称に対応する前記発言データの再生確率を示す第４確率を算出する第５算出部を更に備え、
前記第３算出部は、
前記指示情報によって特定される前記発言データに対応する前記話者識別情報、前記第１確率、前記第２確率、及び前記第４確率に基づいて、前記操作履歴情報に示される前記話者名称の各々について、前記話者名称設定対象の前記発言データに対して前記スコアを算出する、
請求項３に記載の情報処理装置。
コンピュータを、
話者の発言データを含む音声データを受け付ける第１受付部と、
前記音声データを前記発言データ毎に分割する分割部と、
前記発言データの音響的特徴に基づいて、前記発言データに話者識別情報を付与する付与部と、
前記音声データに含まれる前記発言データの内、話者名称設定対象の発言データを示す指示情報を、ユーザから受け付ける第２受付部と、
少なくとも、前記発言データの発言識別情報と、付与された前記話者識別情報と、前記発言識別情報によって特定される前記発言データに対してユーザによって設定された話者名称と、を対応づけた操作履歴情報に基づいて、前記指示情報によって特定される前記発言データにユーザが設定する話者名称の候補を、ユーザによって設定される可能性の高さを示すスコアの高い順に配列した候補リストを生成する生成部と、
前記候補リストを前記指示情報によって特定される前記発言データに対応する話者名称の入力欄に表示する第１制御部と、
して機能させるプログラム。
話者の発言データを含む音声データを受け付け、
前記音声データを前記発言データ毎に分割し、
前記発言データの音響的特徴に基づいて、前記発言データに話者識別情報を付与し、
前記音声データに含まれる前記発言データの内、話者名称設定対象の発言データを示す指示情報を、ユーザから受け付け、
少なくとも、前記発言データの発言識別情報と、付与された前記話者識別情報と、前記発言識別情報によって特定される前記発言データに対してユーザによって設定された話者名称と、を対応づけた操作履歴情報に基づいて、前記指示情報によって特定される前記発言データにユーザが設定する話者名称の候補を、ユーザによって設定される可能性の高さを示すスコアの高い順に配列した候補リストを生成し、
前記候補リストを前記指示情報によって特定される前記発言データに対応する話者名称の入力欄に表示する、
情報処理方法。