JP5743976B2 - 情報処理装置、プログラム、及び情報処理方法 - Google Patents

情報処理装置、プログラム、及び情報処理方法 Download PDF

Info

Publication number
JP5743976B2
JP5743976B2 JP2012179023A JP2012179023A JP5743976B2 JP 5743976 B2 JP5743976 B2 JP 5743976B2 JP 2012179023 A JP2012179023 A JP 2012179023A JP 2012179023 A JP2012179023 A JP 2012179023A JP 5743976 B2 JP5743976 B2 JP 5743976B2
Authority
JP
Japan
Prior art keywords
speaker
data
unit
information
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012179023A
Other languages
English (en)
Other versions
JP2014038132A (ja
Inventor
西山 修
修 西山
平 芦川
平 芦川
朋男 池田
朋男 池田
上野 晃嗣
晃嗣 上野
康太 中田
康太 中田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2012179023A priority Critical patent/JP5743976B2/ja
Priority to US13/960,232 priority patent/US9196253B2/en
Publication of JP2014038132A publication Critical patent/JP2014038132A/ja
Application granted granted Critical
Publication of JP5743976B2 publication Critical patent/JP5743976B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明の実施形態は、情報処理装置、プログラム、及び情報処理方法に関する。
従来、複数の話者の発言データを含む音声データを再生し、ユーザが、各話者の発言データをテキストに書き起こし、各発言データに発言者を示す話者名称を設定することが行われている。また、ユーザによる話者名称設定作業を支援する装置も知られている。
例えば、従来の装置は、音声データを音声特徴に基づいて分類する。そして、従来の装置は、分類した音声データ毎に任意の話者識別情報を割り当てて出力することで、ユーザによる話者名称設定作業を支援する。また、従来の装置は、予め顧客ごとに発信者情報と顧客氏名と音声データとを対応づけて記憶する。そして、新たに受信した発信者情報に含まれる音声データと、予め記憶した音声データとを比較し、音声類似度の高い音声データに対応する顧客氏名一覧を表示する。ユーザは、表示された顧客氏名を選択することで、設定対象の音声データに話者名称を設定する。
特開2010−60850号公報 特開2004−15584号公報
しかしながら、音声データの音声特徴は話者の体調等によって変化する場合がある。このため、音声特徴や音声類似度から求めた話者識別情報や顧客氏名は、話者名称設定対象の発言データの話者とは異なる場合があり、精度に欠けていた。このため、ユーザは、表示された話者識別情報や表示された顧客氏名の修正に手間がかかる場合があった。このように、従来では、話者名称設定対象の発言データに対して容易に話者名称を設定可能な情報を提供することは困難であった。
本発明が解決しようとする課題は、話者の発言データに対して、話者名称を容易に設定可能な情報を提供することができる、情報処理装置、プログラム、及び情報処理方法を提供することである。
実施形態の情報処理装置は、第1受付部と、分割部と、付与部と、第2受付部と、生成部と、を備える。第1受付部は、話者の発言データを含む音声データを受け付ける。分割部は、前記音声データを前記発言データ毎に分割する。付与部は、前記発言データの音響的特徴に基づいて、前記発言データに話者識別情報を付与する。第2受付部は、前記音声データに含まれる前記発言データの内、話者名称設定対象の発言データを示す指示情報を、ユーザから受け付ける。生成部は、少なくとも、前記発言データの発言識別情報と、付与された前記話者識別情報と、前記発言識別情報によって特定される前記発言データに対してユーザによって設定された話者名称と、を対応づけた操作履歴情報に基づいて、前記指示情報によって特定される前記発言データにユーザが設定する話者名称の候補を、ユーザによって設定される可能性の高さを示すスコアの高い順に配列した候補リストを生成する。第1制御部は、前記候補リストを前記指示情報によって特定される前記発言データに対応する話者名称の入力欄に表示する。
実施の形態1の情報処理システムのブロック図。 第1データのデータ構造の一例を示す模式図。 操作履歴情報のデータ構造の一例を示す模式図。 入力画面の一例を示す模式図。 第1確率の説明図。 第2確率の説明図。 スコア算出の説明図。 候補リストのデータ構造の一例を示す模式図。 設定画面の一例を示す模式図。 設定画面の一例を示す模式図。 操作履歴情報のデータ構造の一例を示す模式図。 候補リストの一例を示す模式図。 候補リストの表示状態を示す模式図。 候補リストの表示状態を示す模式図。 情報処理の手順を示すフローチャート。 入力画面の一例を示す模式図。 候補リスト生成処理の手順を示すフローチャート。 実施の形態2の情報処理システムのブロック図。 第3確率の説明図。 スコア算出の説明図。 情報処理の手順を示すフローチャート。 候補リスト生成処理の手順を示すフローチャート。 実施の形態3の情報処理システムの機能的構成を示すブロック図。 第4確率の説明図。 スコア算出の説明図。 情報処理の手順を示すフローチャート。 候補リスト生成処理の手順を示すフローチャート。 実施の形態4の情報処理システムの模式図。 情報処理の手順を示すフローチャート。 情報処理の手順を示すフローチャート。
以下に添付図面を参照して、情報処理装置、プログラム、及び情報処理方法の一の実施形態を詳細に説明する。
(実施の形態1)
図1は、本実施の形態の情報処理システム10の機能的構成を示すブロック図である。情報処理システム10は、取得部14、入力部20、表示部22、情報処理装置12、及び記憶部18を含む。
本実施の形態では、情報処理システム10は、情報処理装置12と、取得部14、入力部20、表示部22、及び記憶部18と、が別体として設けられた構成である場合を説明する。なお、情報処理システム10は、情報処理装置12と、取得部14、入力部20、表示部22、情報処理装置12、及び記憶部18の少なくとも1つと、が一体的に構成された形態であってもよい。
取得部14は、音声データを取得する。取得部14は、音声データを取得する装置であればよい。取得部14は、例えば、公知のマイクである。
音声データは、1または複数の話者の発言データを含む。発言データは、各話者の発する音声データを示し、他者の音声データによって区切られるまでの時系列的に連続する音声データである。
入力部20は、各種指示入力をユーザから受け付ける。入力部20は、例えば、マウス、ボタン、リモコン、キーボード、マイク等の音声データ認識装置、及び画像認識装等の1または複数を組み合せたもの等である。
表示部22は、各種画像を表示する装置である。表示部22は、液晶表示装置等の公知の表示装置である。
なお、入力部20及び表示部22は、一体的に構成されていてもよい。具体的には、入力部20及び表示部22は、入力機能及び表示機能の双方を備えたUI(User Interface)部16として構成されていてもよい。UI部16は、例えば、タッチパネル付LCD(Liquid Crystal Display)等である。
記憶部18は、ハードディスクドライブ装置(HDD)等の記憶媒体である。記憶部18は、音声データ、第1データ、及び操作履歴情報や、各種データを記憶する。
図2は、第1データのデータ構造の一例を示す模式図である。第1データは、発言識別情報(以下、発言IDと称する)と、開始時刻及び終了時刻と、話者識別情報(以下、話者IDと称する)と、を対応づけたテーブルである。第1データは、情報処理装置12によって作成される(詳細後述)。
発言IDは、音声データに含まれる各発言データを一意に識別する情報である。また、発言IDは、各発言データの音声データにおける時系列的な順列を示す。本実施の形態では、情報処理装置12は、音声データにおける位置が先頭の発言データから、末端の発言データに向かって順に数の大きい番号等を、発言IDとして各発言データに付与する場合を説明する。開始時刻及び終了時刻は、対応する発言データの音声データにおける位置を示す。話者IDは、話者を一意に識別する情報である。発言ID及び話者IDは、情報処理装置12によって付与される(詳細後述)。
操作履歴情報は、ユーザが各発言データに設定した話者名称の設定履歴を示す情報である。操作履歴情報は、ユーザによって各発言データに話者名称が設定される度に、情報処理装置12によって更新される。
図3は、操作履歴情報のデータ構造の一例を示す模式図である。図3に示すように、操作履歴情報は、具体的には、発言IDと、話者IDと、話者名称と、を対応づけて記憶したテーブルである。操作履歴情報に示される発言ID及び話者IDは、後述する情報処理装置12によって付与された情報である。操作履歴情報に示される話者名称は、ユーザが各発言データの発言者を示す情報として、各発言データに設定した情報である。
なお、図3に示す例では、操作履歴情報は、時系列的に連続する発言ID「1」〜発言ID「4」の各々について、ユーザによって話者名称が設定された状態であるときの操作履歴情報の一例を示す。
図1に戻り、情報処理装置12は、ユーザによる話者名称の設定を支援する。
概要を説明すると、例えば、情報処理装置12は、表示部22に、音声データに含まれる発言データの各々について話者名称を設定するための入力画面を表示する。図4は、ユーザが話者名称を設定するときの入力画面の一例を示す模式図である。
図4に示すように、入力画面50は、例えば、再生画面52と設定画面54とを含む。再生画面52は、音声データの再生状態や、音声データに含まれる各発言データに既に設定された話者名称等を含む。設定画面54は、音声データに含まれる発言データの一覧と、話者名称の入力欄と、発言内容の入力欄と、を含む。話者名称の入力欄には、既に話者名称がユーザによって設定済である場合には、設定済の話者名称が表示される。発言内容の入力欄には、既に発言内容がユーザによって設定済、または発言データからテキストデータとして発言内容を取り込んだ場合には、設定済または取り込み済の内容が表示される。なお、図4中、「開始時刻」は、音声データにおける各発言データの開始時刻を示す。
ユーザは、入力部20を操作することで、話者名称設定対象の発言データ(図4では、例えば、開始時刻「0:00:10」)を選択する。そして、ユーザは、話者名称の入力欄56Aに、話者名称を入力する。このとき、本実施の形態の情報処理装置12では、ユーザが設定する話者名称の候補を示す候補リスト56Bを表示する。これによって、本実施の形態の情報処理装置12では、ユーザによる話者名称の設定を支援する。本実施の形態では、情報処理装置12は、特有の候補リストを生成する。以下、詳細を説明する。
図1に戻り、情報処理装置12は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)、及びHDD等がバスにより相互に接続され、通常のコンピュータを利用したハードウェア構成である。
情報処理装置12は、第1受付部24、分割部25、付与部26、第2受付部28、第3受付部31、生成部30、及び第1制御部32を含む。
第1受付部24は、音声データを取得部14から受け付ける。なお、本実施の形態では、第1受付部24は、取得部14から音声データを受け付ける場合を説明するが、取得部14から受け付ける場合に限られない。例えば、第1受付部24は、図示を省略する通信部を介して、外部装置や外部記憶媒体等から音声データを取得してもよい。第1受付部24は、受け付けた音声データを、記憶部18に記憶する。なお、音声データは、予め記憶部18に記憶してもよい。
分割部25は、第1受付部24が受け付けた音声データを、複数の発言データに分割する。分割部25は、例えば、音声データを先頭から順に解析し、音響的特徴が予め定めた範囲内の音声データが連続する範囲を1つの発言データとして特定することで、該音声データを複数の発言データに分割する。なお、音響的特徴の特定には、公知の技術を用いる。
付与部26は、分割部25で分割された各発言データの音響的特徴に基づいて、各発言データに話者IDを付与する。具体的には、付与部26は、分割部25で分割された各発言データを、音響的特徴が予め定めた範囲内の群に分類する。そして、分類した各群に、群毎に一意の識別情報である話者IDを付与する。これによって、付与部26は、上記第1データを作成し、記憶部18に記憶する。なお、この音響的特徴に基づいた分類には、公知の音響特徴量抽出技術、音声・非音声判別技術、話者分類技術、音声認識技術、及び言語処理技術等の1または複数の技術を組み合わせて用いる。
第1制御部32は、入力画面等の各種画像を表示部22へ表示する制御を行う。
第2受付部28は、音声データに含まれる複数の発言データの内、話者名称設定対象の発言データを示す指示情報を、ユーザから受け付ける。指示情報は、例えば、話者名称設定対象の発言データの発言IDを含む。詳細には、ユーザによる入力部20の操作によって、音声データに含まれる複数の発言データの内、話者名称設定対象の発言データが指示される。すると、入力部20は、指示された発言データを示す情報を第2受付部28へ送信する。第2受付部28は、入力部20から、指示された発言データを示す情報を受け付けることで、話者名称設定対象の発言データを示す指示情報を受け付ける。
具体的には、第1制御部32は、音声データに含まれる発言データの一覧を表示部22に表示する。この発言データの一覧は、発言データを特定可能な情報を示せばよい。例えば、この発言データの一覧には、各発言データの音声データにおける位置(開始時刻や終了時刻)等を用いればよい。そして、第1制御部32は、表示した発言データの一覧の内、話者名称設定対象の指示を促すメッセージ等を表示部22に表示する。そして、ユーザによる入力部20の操作指示によって、話者名称設定対象の発言データが選択されたときに、入力部20は、話者名称設定対象の発言データの発言IDを含む指示情報を、第2受付部28へ送信すればよい。
なお、話者名称設定対象の発言データを示す指示情報として、発言ID以外の情報を用いてもよい。例えば、指示情報は、ユーザによって選択された発言データの音声データにおける位置(時刻)を示す情報であってもよい。この場合には、第2受付部28は、指示情報に含まれる該時刻に対応する発言データの発言IDを、第1データから取得することで、話者名称設定対象の発言データの発言IDを取得すればよい。
また、第1制御部32が発言データの一覧の表示を行わずに、第2受付部28がユーザから話者名称設定対象の発言データを受け付けてもよい。この場合には、第1制御部32は、話者名称設定対象の指示を促すメッセージ等を表示部22に表示する。そして、ユーザによる入力部20の操作指示によって、話者名称設定対象の発言データを示す指示情報が入力されてもよい。
生成部30は、第2受付部28で話者名称設定対象の発言データの指示情報を受け付けたときに、操作履歴情報に基づいて、候補リストを生成する。候補リストは、第2受付部28で受け付けた指示情報に含まれる発言IDによって特定される発言データに対して、ユーザが設定する話者名称の候補を示す。
本実施の形態では、生成部30は、候補リストとして、該候補とする話者名称と、指示情報によって特定される発言データに操作履歴情報に示される各話者名称の設定される確率の高さと、の対応を示す候補リストを作成する。
なお、話者名称設定対象の発言データに該候補とする各話者名称の設定される確率の高さには、例えば、該確率が高いほど高い優先順位を示す数字を用いる。
生成部30は、第1算出部34、第2算出部36、及び第3算出部38を含む。
第1算出部34は、操作履歴情報に基づいて、第1確率を算出する。第1確率は、操作履歴情報に示される話者IDと話者名称との対応関係から、該話者IDに該話者名称が対応づけられる確率を示す。言い換えれば、第1確率は、操作履歴情報に示される各話者IDに対応する発言IDによって特定される発言データに、該話者IDに対応する話者名称をユーザが設定した確率を、話者ID毎に示したものである。具体的には、第1算出部34は、操作履歴情報から、話者IDと話者名称との対応関係を読み取る。そして、第1算出部34は、読み取った各話者IDに対して、対応する話者名称が設定された第1確率を算出する。
操作履歴情報が、図3に示す状態であるとする。この場合、話者ID「A」に対応する話者名称は、いずれも「司会者」である。また、話者ID「B」に対応する話者名称は「記者」である。また、話者ID「C」に対応する話者名称は「主演」である。図5は、第1確率の説明図である。操作履歴情報が図3に示す状態である場合、第1算出部34は、話者ID「A」に対応する発言ID「1」及び発言ID「4」の発言データに対して、話者名称「司会者」がユーザによって設定された第1確率「1.0」を算出する。また、第1算出部34は、話者ID「B」に対応する発言ID「2」の発言データに対して、話者名称「記者」がユーザによって設定された第1確率「1.0」を算出する。また、第1算出部34は、話者ID「C」に対応する発言ID「3」の発言データに対して、話者名称「主演」がユーザによって設定された第1確率「1.0」を算出する。
なお、例えば、操作履歴情報が、話者ID「A」に対応する話者名称として「司会者」である履歴と、話者ID「A」に対応する話者名称として「記者」である履歴と、を含むとする。この場合には、第1算出部34は、話者ID「A」に対応する発言IDの発言データに対して、話者名称「司会者」がユーザによって設定された第1確率「0.5」を算出する。また、第1算出部34は、話者ID「A」に対応する発言IDの発言データに対して、話者名称「記者」がユーザによって設定された第1確率「0.5」を算出する。
図1に戻り、第2算出部36は、第2確率を算出する。第2確率は、操作履歴情報に示される話者名称の各々が、時系列的に直前の発言データに対応する話者名称の次に設定された確率を示す。
操作履歴情報が、図3に示す状態であるとする。図6は、第2確率の説明図である。操作履歴情報が図3に示す状態である場合、発言ID「2」に対応する話者名称は「記者」である。また、発言ID「2」の直前の発言データである発言ID「1」に対応する話者名称は「司会者」である。また、操作履歴情報には、話者名称「記者」の設定された発言IDは、発言ID「2」のみである。このため、第2算出部36は、話者名称「記者」の設定された発言IDによって特定される発言データ(図6中、「後続」の発言データ)の直前の発言データに、「司会者」が設定された第2確率「1.0」を算出する。
すなわち、図6に示すように、「後続」の欄に示される話者名称「記者」に対応する、「直前」の欄に示される話者名称「司会者」の第2確率は「1.0」となる。
また、第2算出部36は、話者名称「記者」の設定された発言IDによって特定される発言データ(図6中、「後続」の発言データ)の直前に、「記者」及び「主演」が設定された第2確率「0」を算出する。
図6に示すように、「後続」の欄に示される話者名称「記者」に対応する、「直前」の欄に示される話者名称「記者」及び「主演」の第2確率は「0」となる。
同様にして、第2算出部36は、操作履歴情報に示される全ての話者名称(「司会者」、「記者」、「主演」)の各々について、第2確率を算出する(図6参照)。
なお、図6中、「<新規>」は、直前の発言データに設定された話者名称に対して、次の発言データに設定された話者名称が、操作履歴情報に示される既に設定された話者名称以外の新たな話者名称である場合を示す。第2算出部36は、この「<新規>」についても同様にして、第2確率を算出する。
なお、本実施の形態では、第1算出部34及び第2算出部36は、操作履歴情報に示される全ての情報を用いて、第1確率及び第2確率の各々を算出する場合を説明するが、この形態に限られない。
例えば、第1算出部34及び第2算出部36は、第2受付部28で受け付けた話者名称設定対象の発言データに対して、音声データにおいて時系列的に前の予め定めた数の発言データの操作履歴情報を用いて、第1確率及び第2確率を算出してもよい。また、第1算出部34及び第2算出部36は、第2受付部28が受け付けた話者名称設定対象の発言データに対して、音声データにおいて時系列的に前後の予め定めた数件の発言データの発言IDの操作履歴情報を用いて、第1確率及び第2確率を算出してもよい。
図1に戻り、第3算出部38は、操作履歴情報に示される話者名称の各々について、スコアを算出する。スコアは、指示情報によって示される話者名称設定対象の発言データに対して、操作履歴情報に示される話者名称の各々がユーザによって設定される可能性の高さを示す。すなわち、スコアの高い話者名称ほど、話者名称設定対象の発言データに対して設定される可能性が高い。
第3算出部38は、第2受付部28で受け付けた話者名称設定対象の発言データを示す指示情報と、第1算出部34によって算出された第1確率と、第2算出部36によって算出された第2確率と、に基づいてスコアを算出する。
具体的には、第3算出部38は、第2受付部28で受け付けた話者名称設定対象の発言データの発言IDに対応する話者IDを第1データから読み取る。次に、第3算出部38は、第1算出部34で算出された第1確率の内、読み取った該発言IDに対応する話者IDに対応する、話者名称及び第1確率を読み取る。
なお、第1算出部34が図5に示す第1確率を話者ID毎に算出したとする。また、第2受付部28で受け付けた話者名称設定対象の発言データの発言IDが図2の第1データ中の発言ID「5」であったとする。この場合、該第1データから、該発言ID「5」に対応する話者IDは「D」である。この場合には、図5中には、第1確率の記載が無い。このため、第3算出部38は、発言ID「5」に対応する話者名称「司会者」、「記者」、「主演」の各々に対応する第1確率を「0」として読み取る。
図7は、第3算出部38によるスコア算出の説明図である。第3算出部38は、図7に示すように、操作履歴情報に示される各話者名称(「司会者」、「記者」、「主演」)に対応する第1確率「0」をスコア算出対象として読み取る。また、第3算出部38は、新規の話者名称が設定される第1確率「1.0」をスコア算出対象として読み取る。
また、第2算出部36が図6に示す第2確率を算出したとする。また、第2受付部28で受け付けた話者名称設定対象の発言データの発言IDが「5」であったとする。この場合には、第3算出部38は、発言ID「5」の直前の発言データの発言ID「4」に対応する話者名称を操作履歴情報から読み取る。操作履歴情報が図3に示す状態である場合、第3算出部38は、発言ID「4」に対応する話者名称「司会者」を読み取る。そして、第3算出部38は、第2算出部36によって算出された第2確率から、直前の発言データの話者名称が「司会者」である場合に、操作履歴情報に示される話者名称の各々が次に設定された第2確率を、スコア算出対象として読み取る。
具体的には、第3算出部38は、図6に示される第2確率の内、直前の発言データの話者名称が「司会者」である場合に、操作履歴情報に示される各話者名称(「司会者」、「記者」、「主演」)及び新規の話者名称「<新規>」の各々が次に設定される第2確率「0」、「1.0」、「0」、「1.0」を、スコア算出対象として読み取る(図7参照)。
そして、第3算出部38は、各話者名称に対応する第1確率及び第2確率の加算値を、各話者名称に対応するスコアとして算出する(図7参照)。
なお、第3算出部38は、第1確率及び第2確率の加算値を、各話者名称に対応するスコアとして算出したが、この形態に限られない。例えば、第3算出部38は、各第1確率及び第2確率に、予め定めた重み係数を乗算した後に加算した加算値を、スコアとして算出してもよい。
なお、第3算出部38は、上記第1確率及び第2確率の加算値に加えて、話者名称の使用頻度の高い順に高い値や、話者名称の設定されていない期間の短い順に高い値等を更に加算し、スコアとして算出してもよい。
図1に戻り、生成部30は、第3算出部38で算出されたスコアの高い順に予め定めた数の話者名称を選択し、選択した話者名称の候補を示す候補リストを生成する。この予め定めた数は、1以上の整数であればよい。例えば、生成部30は、この予め定めた数として、2または3を予め設定すればよい。
例えば、第3算出部38が、ユーザによって既に設定された各話者名称のスコアとして、図7に示すスコアを算出したとする。この場合、生成部30は、スコアの高い順に例えば2つの話者名称(「<新規>」、「記者」)を読み取る。そして、生成部30は、読み取ったこれらの話者名称の候補を示す候補リストを生成する。
なお、生成部30は、第3算出部38によって算出されたスコアの高い順に話者名称を並び替えた候補を示す候補リストを生成してもよい。図8は、候補リストのデータ構造の一例を示す模式図である。第3算出部38が、ユーザによって既に設定された各話者名称のスコアとして、図7に示すスコアを算出したとする。この場合、生成部30は、図7に示すスコアの高い順に高い優先優位を付与する。そして、生成部30は、図8に示すように、優先順位の高い順に対応する話者名称を並び替えた候補リストを生成する。
図1に戻り、第1制御部32は、生成部30で生成された候補リストを、第2受付部28で受け付けた話者名称設定対象の発言データの指示情報に含まれる発言IDによって特定される発言データに対応する話者名称の入力欄に表示する制御を行う。
図9は、話者名称を設定するための入力画面における、設定画面54Aの一例を示す模式図である。図9に示す例では、音声データにおける、開始時刻が「0:00:00」、「0:00:05」、「0:00:11」、「0:00:18」の各々の発言データについては、既に話者名称が設定済である状態の設定画面を示す。また、図9に示す例では、音声データにおける、開始時刻が「0:00:20」の発言データを、ユーザが話者名称設定対象の発言データとして指示した場合を示す。また、この開始時刻「0:00:20」の発言データが、図2に示す第1データにおける、発言ID「5」の発言データであったとする。
また、操作履歴情報が、図3に示す状態であったとする。この場合、生成部30は、上述したように、図8に示す候補リストを作成する。このため、第1制御部32は、図9に示すように、設定画面54Aにおける、ユーザによる入力部20の操作によって指定された話者名称設定対象の発言データ(開始時刻「0:00:20」)の話者名称の入力欄58Aに、候補リスト58Bを表示する。なお、ユーザによる入力部20の操作によって表示部22上に表示されたポインタTの位置が入力欄58Aを指示したときに、第1制御部32は候補リスト58Bを表示してもよい。
図1に戻り、第3受付部31は、話者名称設定対象の発言データについて、ユーザによって設定された話者名称を入力部20から受け付ける。ユーザによる入力部20の操作によって、候補リスト(図9では候補リスト58B)の中から話者名称が選択される。なお、話者名称「<新規>」が選択された場合には、入力部20は話者名称の入力を受け付ける。すると、入力部20は、ユーザによって入力された話者名称、または選択された話者名称を、第3受付部31へ送信する。第3受付部31は、入力部20から、ユーザによって入力された話者名称を受け付けることで、話者名称設定対象の発言データに対応する話者名称をユーザから受け付ける。
図10は、設定画面54Bの一例を示す模式図である。図9に示す設定画面54Aにおいて、ユーザによる入力部20の操作指示によって、候補リスト58B中の話者名称「記者」が選択されたとする。この場合、第1制御部32は、図10に示すように、開始時刻「0:00:20」の発言データに対応する話者名称として「記者」を表示する。
また、開始時刻「0:00:20」の発言データに対応する話者名称として「記者」を受け付けた第3受付部31は、受け付けた話者名称「記者」を、該開始時刻「0:00:20」の発言IDに対応する話者名称として記憶部18に記憶することで、操作履歴情報を更新する。図11は、更新後の操作履歴情報のデータ構造の一例を示す模式図である。例えば、第3受付部31は、図3に示す状態であった操作履歴情報を、図11に示す操作履歴情報に更新する。
なお、図9に示す例では、第1制御部32は、話者名称の入力欄58Aに、最も上部の欄にテキスト入力用の入力欄を配置し、該テキスト入力用の入力欄の下部に優先順位に応じた順に話者名称を並べた候補リスト58Bを表示する場合を説明した。また、図9に示す例では、話者名称「<新規>」については、候補リスト58Bに含めない形態を示した。これによって、ユーザは入力部20の操作指示によって、テキスト入力用の入力欄に話者名称を直接入力することで話者名称を設定することも出来るし、候補リスト58Bに表示された話者名称の内の何れかを選択することで話者名称を設定することも出来る。
図12は、候補リストの一例を示す模式図である。図13は、候補リストの表示状態を示す模式図である。生成部30が、図12に示す候補リストを作成したとする。この場合、第1制御部32は、話者名称「<新規>」については、候補リスト58Cに含めない表示形態とする場合、図13に示す候補リスト58Cを表示してもよい。
なお、候補リスト58Bの表示形態は、図9に示す表示形態に限られない。例えば、第1制御部32は、優先順位「1」に対応する話者名称が「<新規>」である場合に、最も上部の欄にテキスト入力用の入力欄を配置してもよい。
図14は、候補リストの表示状態を示す模式図である。例えば、生成部30が、図12に示す候補リストを生成したとする。この場合、第1制御部32は、候補リストに示される優先順位の順に、話者名称「<新規>」も含めた候補リスト58Dを、表示してもよい(図14参照)。
次に、情報処理装置12で実行する情報処理の手順を説明する。
図15は、情報処理装置12が実行する情報処理の手順を示すフローチャートである。
まず、第1受付部24が、音声データを取得部14から受け付ける(ステップS100)。次に、分割部25が、上記ステップS100で第1受付部24が受け付けた音声データを、複数の発言データに分割する(ステップS102)。
次に、付与部26が、第1データを生成する(ステップS104)。すなわち、ステップS104の処理において、付与部26は、上記ステップS102の処理によって分割部25で分割された各発言データを一意に識別すると共に各発言データの音声データにおける時系列的な順列を示す発言IDを、各発言データに付与する。また、付与部26は、各発言データに話者IDを付与する。これによって、付与部26は、第1データを作成し、記憶部18に記憶する。
次に、第1制御部32が、ステップS100で受け付けた音声データに含まれる複数の発言データの内、話者名称設定対象の発言データを選択するための入力画面を表示部22に表示する制御を行う(ステップS106)。
図16は、入力画面の一例を示す模式図である。例えば、第1制御部32は、図16に示す設定画面54Cを含む入力画面を表示部22に表示する制御を行う。詳細には、第1制御部32は、上記ステップS104で生成された第1データと、記憶部18に記憶されている操作履歴情報を読み取る。そして、第1制御部32は、ステップS100で受け付けた音声データに含まれる各発言データを識別可能な情報の一覧と、話者名称の入力欄と、発言内容の入力欄と、を含む設定画面54Cを表示する。図16に示す例では、各発言データを識別可能な情報の一覧として、音声データにおける各発言データの開始時刻「0:00:00」、「0:00:05」、「0:00:11」、「0:00:18」、及び「0:00:20」が表示されている。また、開始時刻「0:00:00」、「0:00:05」、「0:00:11」、及び「0:00:18」については、既に話者名称が設定されている。また、始時刻「0:00:00」、「0:00:05」、「0:00:11」、「0:00:18」、及び「0:00:20」については、発言内容が既に設定された状態にある。
図15に戻り、次に、第2受付部28が、話者名称設定対象の発言データを示す指示情報をユーザから受け付けたか否かを判断する(ステップS108)。第2受付部28は、ステップS108で肯定判断(ステップS108:Yes)するまで否定判断(ステップS108:No)を繰り返す。第2受付部28は、ステップS108で肯定判断(ステップS108:Yes)すると、ステップS110へ進む。
次に、生成部30が、上記ステップS108の処理によって第2受付部28で受け付けた指示情報に含まれる発言IDに対応する話者IDを取得する(ステップS110)。次に、生成部30は、記憶部18に記憶されている操作履歴情報を読み取る(ステップS112)。
そして、生成部30は、候補リスト生成処理を実行する(ステップS114)(詳細後述)。ステップS114の処理によって、候補リストが生成される。
次に、第1制御部32は、ステップS114の処理によって生成部30で生成された候補リストを、上記ステップS108の処理によってユーザから受け付けた話者名称設定対象の発言データに対応する話者名称の入力欄に表示する(ステップS116)。ステップS116の処理によって、例えば、図9に示す候補リスト58Bが表示される。
次に、第3受付部31が、話者名称設定対象の発言データに対して、ユーザによって設定された話者名称を入力部20から受け付けたか否かを判断する(ステップS118)。第3受付部31は、ステップS118で肯定判断(ステップS118:Yes)するまで否定判断(ステップS118:No)を繰り返す。第3受付部31は、ステップS118で肯定判断すると(ステップS118:Yes)、ステップS120へ進む。
第1制御部32は、上記ステップS118で受け付けた話者名称を、上記ステップS108で受け付けた話者名称設定対象の発言データの、話者名称の表示欄に表示する(ステップS120)。
また、第3受付部31は、上記ステップS118で受け付けた話者名称を、上記ステップS108で受け付けた話者名称設定対象の発言データの発言IDと、上記ステップS110で取得した話者IDと、に対応づけて、操作履歴情報に記憶する(ステップS122)。ステップS122の処理によって、記憶部18に格納されている操作履歴情報が、各発言データにユーザによって話者名称が設定される度に、更新されることとなる。
次に、情報処理装置12が、情報処理の終了か否かを判断する(ステップS124)。例えば、情報処理装置12は、ユーザの操作指示によって入力部20から情報処理の終了を示す信号を受け付けたか否かを判別することで、ステップS124の判断を行う。
ステップS124で否定判断すると(ステップS124:No)、上記ステップS106へ戻る。一方、ステップS124で肯定判断すると(ステップS124:Yes)、本ルーチンを終了する。
次に、上記ステップS114で実行する候補リスト生成処理を説明する。
図17は、生成部30が実行する候補リスト生成処理の手順を示すフローチャートである。
まず、第1算出部34が、操作履歴情報に基づいて、第1確率を算出する(ステップS200)。次に、第2算出部36が、第2確率を算出する(ステップS202)。
次に、第3算出部38が、スコアを算出する(ステップS204)。次に、生成部30が、第3算出部38で算出されたスコアの高い順に予め定めた数の話者名称を選択し、選択した話者名称の候補を示す候補リストを生成する(ステップS206)。そして、本ルーチンを終了する。
以上説明したように、本実施の形態の情報処理装置12では、操作履歴情報に基づいて、話者名称設定対象の発言データについてユーザが設定する話者名称の候補を示す候補リストを生成する。このため、本実施の形態の情報処理装置12では、音声データに含まれる1または複数の話者の発言データに対して、話者名称を容易に設定可能な情報を提供することができる。
また、本実施の形態の情報処理装置12では、話者名称設定対象の発言データについてユーザが設定する可能性の高さを示すスコアを、操作履歴情報に示される話者名称毎に算出する。そして、情報処理装置12は、スコアの高い話者名称順に配列した候補リストを生成する。
このため、音声データに含まれる1または複数の話者の発言データに対して、話者名称を更に容易に設定可能な情報を提供することができる。
また、本実施の形態の情報処理装置12では、話者名称設定対象の発言データに対して時系列的に直前の発言データ等に基づいて、上記コストを算出する。
このため、本実施の形態の情報処理装置12では、候補リストを、音声データにおける話者交代の流れを考慮したものとなる。従って、情報処理装置12では、講演、インタビュー、及び記者会見等の、単純な話者交代の流れを有する音声データに含まれる発言データの各々に話者名称を付与する場合に、特に好適に適用される。
また、本実施の形態の情報処理装置12によれば、話者の役割や所属する団体名などの名称を複数の話者に一様に付与したい場合など、ユーザが求める粒度が個人ではない場合にも、当該粒度に応じた候補リストを作成することができる。そのため、ユーザが話者名称を修正する負担を軽減することができる。
(実施の形態2)
本実施の形態では、ユーザによって選択された発言データを更に用いて、候補リストを生成する。
図18は、本実施の形態の情報処理システム10Aの機能的構成を示すブロック図である。情報処理システム10Aは、取得部14、入力部20、表示部22、情報処理装置12A、及び記憶部18を含む。取得部14、入力部20、表示部22、及び記憶部18は、実施の形態1と同様である。
情報処理装置12Aは、第1受付部24、分割部25、付与部26、第2受付部28、第3受付部31、生成部30A、及び第1制御部32を含む。第1受付部24、分割部25、付与部26、第2受付部28、第3受付部31、及び第1制御部32は、実施の形態1と同様である。
生成部30Aは、第1算出部34、第2算出部36、第3算出部38A、第4算出部40、抽出部42、及び第1取得部41を含む。第1算出部34及び第2算出部36は、実施の形態1と同様である。
第1取得部41は、第1受付部24で受け付けた音声データに含まれる各発言データのテキストデータを取得する。第1取得部41は、分割部25で分割された各発言データを、音声データからテキストデータを生成する公知の技術を用いてテキスト化することで、各発言データのテキストデータを取得する。
なお、第1取得部41は、分割部25で分割された各発言データについて、ユーザによって設定された発言内容を示すテキストデータを、各発言データのテキストデータとして取得してもよい。なお、第1取得部41は、分割部25で分割された各発言データについて、ユーザによって設定された発言内容を示すテキストデータを、各発言データのテキストデータとして取得することが好ましい。
抽出部42は、第1取得部41で取得した各発言データに対応するテキストデータの内、少なくとも、第2受付部28で受け付けた話者名称設定対象の発言データのテキストデータと、該発言データの直前の発言データのテキストデータと、を読み取る。
なお、抽出部42は、第2受付部28で受け付けた話者名称設定対象の発言データのテキストデータと、該発言データより前の発言データのテキストデータの内の少なくとも1つと、を読み取ってもよい。しかし、候補リストに示す話者名称の精度向上の観点から、抽出部42は、第1取得部41で取得した各発言データに対応するテキストデータの内、第2受付部28で受け付けた話者名称設定対象の発言データのテキストデータと、該発言データの直前の発言データのテキストデータと、を読み取ることが好ましい。
次に、抽出部42は、第2受付部28で受け付けた話者名称設定対象の発言データのテキストデータと、該発言データの直前の発言データのテキストデータと、を解析し、これらのテキストデータに含まれる予め定めた話者特定情報を抽出する。
なお、抽出部42は、第2受付部28で受け付けた話者名称設定対象の発言データと、該発言データの直前の発言データと、を解析し、これらの発言データに含まれる話者特定情報を抽出してもよい。
話者特定情報とは、話者を特定する情報である。本実施の形態では、話者特定情報は、ユーザによって設定される話者名称に属する、話者を特定可能な1または複数の情報である。本実施の形態では、記憶部18は、ユーザによって設定された話者名称と、対応する話者名称に属する1または複数の話者特定情報と、を対応づけて更に記憶する。なお、話者名称、及び各話者名称に属する話者特定情報は、ユーザによる入力部20の操作指示によって予め設定され、記憶部18に予め記憶すればよい。また、話者名称、及び話者名称に属する話者特定情報は、ユーザによる入力部20の操作指示によって変更可能である。
例えば、記憶部18は、話者名称として「記者」を予め記憶する。また、例えば、記憶部18は、話者名称「記者」に対応する話者特定情報として、「P新聞」、「Q」、「R新聞」、「S」を記憶する。なお、「Q」は、P新聞の社員の名称を示す。また、「S」は、R新聞の社員の名称を示す。このように、本実施の形態では、記憶部18は、各話者名称に属する話者特定情報を予め記憶している。
なお、各話者名称に属する話者特定情報は、操作履歴情報に基づいて各発言データのテキストデータから抽出した固有名詞などの氏名・団体名称を、動的に対応付けて設定してもよい。例えば、記憶部18は、話者名称として「記者」と、話者特定情報として「P新聞」、「Q」を記憶する。
抽出部42は、第2受付部28で受け付けた話者名称設定対象の発言データのテキストデータと、該発言データの直前の発言データのテキストデータと、を解析し、これらのテキストデータに含まれる予め定めた話者特定情報を抽出する。
第4算出部40は、操作履歴情報及び抽出された話者特定情報に基づいて、第3確率を算出する。第3確率は、少なくとも話者名称設定対象の発言データに、操作履歴情報に示される各話者名称に属する話者特定情報が含まれている確率を示す。
なお、第3確率は、少なくとも話者名称設定対象の発言データに、操作履歴情報に示される各話者名称に属する話者特定情報が含まれている確率を示すが、話者名称設定対象の発言データ及び該発言データの直前の発言データの双方に、操作履歴情報に示される各話者名称に属する話者特定情報が含まれている確率を示すことが好ましい。
図19は、第3確率の説明図である。例えば、第2受付部28で受け付けた話者名称設定対象の発言データが、図16に示す開始時刻「0:00:20」の発言データであったとする。また、該発言データに対して、ユーザによる入力部20の操作によって、発言内容として「R新聞のSです。演技に厳しいU監督ですが、演技指導はどうですか?」のテキストデータが設定されていたとする。また、該発言データの直前の発言データのテキストデータが、「次の方、挙手願います。はい。あちらの方、どうぞ。」であったとする。
この場合、抽出部42は、これらのテキストデータから、予め登録した話者特定情報である、「R新聞」、「S」を抽出する。そして、第4算出部40は、操作履歴情報に示される各話者名称の各々について、各話者名称に属する話者特定情報が抽出部42で抽出された第3確率を算出する。この場合、第4算出部40は、話者名称「記者」に対応する第3確率として、話者名称「記者」に属する話者特定情報であり且つ抽出部42で抽出された話者特定情報である「R新聞」及び「S」について、第3確率「1.0」を算出する。また、第4算出部40は、話者名称「司会者」及び「主演」の各々に属する話者特定情報が、抽出部42で読み取ったテキストデータから抽出されなかった場合には、これらの話者名称の各々に対応づけて第3確率「0」を算出する。
図18に戻り、第3算出部38Aは、スコアを算出する。本実施の形態では、第3算出部38Aは、第1算出部34によって算出された第1確率と、第2算出部36によって算出された第2確率と、第4算出部40によって算出された第3確率と、に基づいてスコアを算出する。
図20は、第3算出部38Aによるスコア算出の説明図である。第3算出部38Aは、実施の形態1の第3算出部38と同様にして、操作履歴情報に示される話者名称毎の第1確率、及び第2確率を読み取る。また、第3算出部38Aは、操作履歴情報に示される各話者名称の各々について、第4算出部40で算出された第3確率を読み取る。そして、第3算出部38Aは、操作履歴情報に示される話者名称毎に、各話者名称に対応する第1確率、第2確率、第3確率の加算値を、各話者名称に対応するスコアとして算出する(図20参照)。なお、実施の形態1と同様に、第1確率、第2確率、及び第3確率の予め定めた重み付値を乗算した値の加算値を、スコアとして算出してもよい。
図18に戻り、生成部30Aは、第3算出部38Aで算出されたスコアの高い順に予め定めた数の話者名称を選択し、選択した話者名称の候補を示す候補リストを生成する。
次に、情報処理装置12Aで実行する情報処理の手順を説明する。
図21は、情報処理装置12Aが実行する情報処理の手順を示すフローチャートである。
情報処理装置12Aでは、実施の形態1におけるステップS100〜ステップS112と同様の処理を行う(図15参照)。次に、第1取得部41が、各発言データに対応するテキストデータを取得する(ステップS1130)。
次に、生成部30Aが、後述する候補リスト生成処理を実行する(ステップS1140)。次に、情報処理装置12Aでは、実施の形態1と同様にしてステップS116〜ステップS124の処理を実行し、本ルーチンを終了する。
次に、生成部30Aが実行する候補リスト生成処理(ステップS1140)を説明する。
図22は、生成部30Aが実行する候補リスト生成処理の手順を示すフローチャートである。
まず、第1算出部34が実施の形態1のステップS200(図17参照)と同様にして第1確率を算出する(ステップS2000)。次に、第2算出部36が、実施の形態1のステップS202(図17参照)と同様にして第2確率を算出する(ステップS2020)。
次に、抽出部42が、第1取得部41で取得した各発言データに対応するテキストデータの内、少なくとも、第2受付部28で受け付けた話者名称設定対象の発言データのテキストデータと、該発言データの直前の発言データのテキストデータと、を解析し、これらのテキストデータに含まれる予め定めた話者特定情報を抽出する(ステップS2030)。
次に、第4算出部40が、操作履歴情報及び抽出された話者特定情報に基づいて、第3確率を算出する(ステップS2040)。次に、第3算出部38Aが、第1算出部34によって算出された第1確率と、第2算出部36によって算出された第2確率と、第4算出部40によって算出された第3確率と、に基づいてスコアを算出する(ステップS2060)。
次に、生成部30Aが、第3算出部38Aで算出されたスコアの高い順に予め定めた数の話者名称を選択し、選択した話者名称の候補を示す候補リストを生成する(ステップS2080)。そして、本ルーチンを終了する。
以上説明したように、本実施の形態の情報処理システム10Aは、話者名称設定対象の発言データまたは該発言データのテキストデータを更に用いて、候補リストを生成する。
このため、情報処理システム10Aは、話者設定対象の発言データ中に、該発言データの話者を特定する話者特定情報や、直前の発言データに次の発言データの話者を示す話者特定情報が含まれる場合、これらの話者特定情報を加味したスコアを算出することができる。
また、実施の形態1で得られる効果と共に、候補リストに挙げる話者名称の精度を更に向上させることができる。また、実施の形態1で得られる効果に加えて更に、ユーザに対して容易に話者名称を設定するための情報を提供することができる。
また、本実施の形態の情報処理装置12Aは、話者名称設定対象の発言データまたは該発言データのテキストデータに含まれる話者特定情報を用いて、候補リストを生成する。このため、情報処理装置12Aは、話者交代が不規則であり、且つ司会者などによって発言権の管理が行われている討論会等の音声データに含まれる発言データに話者名称を設定する場合であっても、効率良く話者名称を設定するための情報を提供することができる。
(実施の形態3)
本実施の形態では、音声データの再生履歴情報を更に用いて、候補リストを生成する。
図23は、本実施の形態の情報処理システム10Bの機能的構成を示すブロック図である。情報処理システム10Bは、取得部14、入力部20、表示部22、情報処理装置12B、記憶部18B、及び再生部46を含む。取得部14、入力部20、及び表示部22は、実施の形態1と同様である。
再生部46は、音声データを再生する公知の再生装置である。なお、情報処理装置12Bは、再生部46への音声データの再生時には、音声データにおける現在の再生位置を示す情報を表示部22に表示する。また、情報処理装置12Bは、ユーザによる入力部20の操作指示によって指示された発言データを、選択的に再生部46で再生する。
情報処理装置12Bは、第1受付部24、分割部25、付与部26、第2受付部28、第3受付部31、生成部30B、第1制御部32、及び第2制御部49を含む。第1受付部24、分割部25、付与部26、第2受付部28、第3受付部31、及び第1制御部32は、実施の形態1と同様である。第2制御部49は、再生部46への音声データの再生を制御する。また、第2制御部49は、ユーザによる入力部20の操作指示によって音声データに含まれる各発言データが再生対象として選択的に指示されることで、指示された発言データを選択的に再生部46で再生する。このとき、第2制御部49は、再生した発言データの再生回数を、再生履歴情報として記憶部18Bに記憶する。
記憶部18Bは、実施の形態1で説明した第1データ、操作履歴情報等の各種情報に加えて更に、現在より所定回数前までの再生操作についての、各発言データの再生回数を示す再生履歴情報を記憶する。第2制御部49は、各発言データを再生する度に、記憶部18Bに記憶されている再生履歴情報を更新する。
生成部30Bは、第1算出部34、第2算出部36、第3算出部38B、第5算出部60、及び第2取得部62を含む。第1算出部34及び第2算出部36は、実施の形態1と同様である。
第2取得部62は、第1受付部24で取得した音声データに含まれる発言データ毎の再生回数を示す再生履歴情報を取得する。
第5算出部60は、操作履歴情報に示される話者名称の各々について、各話者名称に対応する発言データの再生回数に基づいて、各話者名称に対応する発言データの再生確率を示す第4確率を算出する。
図24は、第5算出部60が話者名称毎に算出した第4確率の説明図である。図24に示すように、第5算出部60は、操作履歴情報に示される話者名称毎に、再生された回数が多いほど高い第4確率を算出する。
図23に戻り、第3算出部38Bは、第1確率、第2確率、及び第4確率に基づいて、操作履歴情報に示される話者名称の各々についてユーザによって設定される可能性の高さを示すスコアを算出する。
図25は、第3算出部38Bによるスコア算出の説明図である。第3算出部38Bは、実施の形態1の第3算出部38と同様にして、操作履歴情報に示される話者名称毎の第1確率、及び第2確率を読み取る。また、第3算出部38Bは、操作履歴情報に示される各話者名称の各々について、第5算出部60で算出された第4確率を読み取る。そして、第3算出部38Bは、操作履歴情報に示される各話者名称毎に、各話者名称に対応する第1確率、第2確率、第4確率の加算値を、各話者名称に対応するスコアとして算出する(図25参照)。
図23に戻り、生成部30Bは、第3算出部38Bで算出されたスコアの高い順に予め定めた数の話者名称を選択し、選択した話者名称の候補を示す候補リストを生成する。
次に、情報処理装置12Bで実行する情報処理の手順を説明する。
図26は、情報処理装置12Bが実行する情報処理の手順を示すフローチャートである。
情報処理装置12Bでは、実施の形態1におけるステップS100〜ステップS112と同様の処理を行う(図15参照)。次に、第2取得部62が、第1受付部24で取得した音声データに含まれる発言データ毎の再生回数を示す再生履歴情報を取得する(ステップS3000)。
次に、生成部30Bが、後述する候補リスト生成処理を実行する(ステップS3020)。次に、情報処理装置12Bでは、実施の形態1と同様にしてステップS116〜ステップS124の処理を実行し、本ルーチンを終了する。
次に、生成部30Bが実行する候補リスト生成処理(ステップS3020)を説明する。
図27は、生成部30Bが実行する候補リスト生成処理の手順を示すフローチャートである。
まず、第1算出部34が実施の形態1のステップS200(図17参照)と同様にして第1確率を算出する(ステップS4000)。次に、第2算出部36が、実施の形態1のステップS202(図17参照)と同様にして第2確率を算出する(ステップS4020)。
次に、第2取得部62が、音声データに含まれる各発言データの再生履歴情報を取得する(ステップS4040)。次に、第5算出部60が、第4確率を算出する(ステップS4060)。
次に、第3算出部38Bが、第1算出部34によって算出された第1確率と、第2算出部36によって算出された第2確率と、第5算出部60によって算出された第4確率と、に基づいてスコアを算出する(ステップS4080)。
次に、生成部30Bが、第3算出部38Bで算出されたスコアの高い順に予め定めた数の話者名称を選択し、選択した話者名称の候補を示す候補リストを生成する(ステップS4090)。そして、本ルーチンを終了する。
以上説明したように、本実施の形態の情報処理システム10Bでは、音声データに含まれる発言データの直近の再生回数が多いほど高いスコアを算出する。このため、本実施の形態の情報処理システム10Bは、ユーザによって手動で行われた声質の類似性を確認する作業対象となった発話データの話者名称を、優先的に候補リストに挙げることができる。
このため、実施の形態1の効果に加えて更に、話者の発言データに対して、話者名称を容易に設定可能な情報を提供することができる。
(実施の形態4)
上記実施の形態1〜実施の形態3では、情報処理装置12(情報処理装置12A、情報処理装置12B)で、候補リストの生成及び表示を行う場合を説明したが、これに限定されるものではない。
すなわち、情報処理装置12(情報処理装置12A、情報処理装置12B)で行っていた処理の何れかを、ネットワークを介して接続された他の装置で実行してもよい。
その一例として、本実施の形態の情報処理システム11では、情報処理装置12(情報処理装置12A、情報処理装置12B)の機能の一部を、ネットワーク上のサーバ装置上に実装している。
図28は、本実施の形態の情報処理システム11の模式図である。
情報処理システム11は、ホスト装置74と、サーバ装置70とが、インターネット等のネットワーク72を介して接続されている。
ホスト装置74は、CPU、ROM、RAM、及びHDD等がバスにより相互に接続され、通常のコンピュータを利用したハードウェア構成である。ホスト装置74は、取得部14C、入力部20C、表示部22C、通信部78C、及び制御部79Cを備える。取得部14C、入力部20C、及び表示部22Cは、実施の形態1の取得部14、入力部20及び表示部22と各々同様である。
通信部78Cは、ネットワーク72を介してサーバ装置70と各種データを送受信する通信インターフェースである。本実施の形態では、通信部78Cは、取得部14Cで取得した音声データ、ユーザによる入力部20Cの操作指示によって入力された話者名称設定対象の発言データを示す指示情報、ユーザによる入力部20Cの操作指示によって入力された話者名称や発言内容等の各種情報を、サーバ装置70へ送信する。また、通信部78Cは、サーバ装置70から、表示部22Cへ表示するための各種入力画面を受信する。制御部79Cは、ホスト装置74の装置各部を制御する。制御部79Cは、サーバ装置70から受信した入力画面を表示部22Cに表示する制御を行う。また、制御部79Cは、入力部20Cを介して入力された各種情報を、通信部78Cを介してサーバ装置70へ送信する制御を行う。
サーバ装置70は、CPU、ROM、RAM、及びHDD等がバスにより相互に接続され、通常のコンピュータを利用したハードウェア構成である。サーバ装置70は、情報処理部12C、通信部76C、及び記憶部18Cを備える。情報処理部12Cは、実施の形態1の情報処理装置12と同様の構成である。詳細には、情報処理部12Cは、第1受付部24C、分割部25C、付与部26C、第2受付部28C、第3受付部31C、及び生成部30Cを備える。第1受付部24C、分割部25C、付与部26C、第2受付部28C、第3受付部31C、及び生成部30Cは、実施の形態1の第1受付部24、分割部25、付与部26、第2受付部28、第3受付部31、及び生成部30の各々と同様の構成である。
記憶部18Cは、実施の形態1の記憶部18と同様の構成である。通信部76Cは、ネットワーク72を介してホスト装置74との間で各種情報を送受信するためのインターフェースである。本実施の形態では、通信部76Cは、ホスト装置74へ、生成部30Cで生成した候補リストを含む入力画面や、話者名称設定対象の発言データを選択するための入力画面等、情報処理部12Cで生成した各種入力画面をホスト装置74へ送信する。また、通信部76Cは、音声データ、話者名称設定対象の発言データを示す指示情報、入力された話者名称や発言内容等の各種情報を、ホスト装置74から受信する。
なお、サーバ装置70では、実施の形態1において情報処理装置12(図1参照)が入力部20(図1参照)や取得部14(図1参照)から取得していた各種情報をホスト装置74から受信する点と、サーバ装置70の情報処理部12Cで生成した入力画面や候補リスト等の各種情報を表示部22(図1参照)に替えてホスト装置74へ送信する以外は、実施の形態1の情報処理装置12と同様の処理を行う。
また、ホスト装置74は、実施の形態1において情報処理装置12で行っていた各種処理をサーバ装置70側で行い、ホスト装置74では、各種情報の取得と表示のみを行う以外は、実施の形態1の情報処理装置12と同様の処理を行う。
次に、サーバ装置70で実行する処理を説明する。
図29は、サーバ装置70で実行する情報処理の手順を示すフローチャートである。
まず、第1受付部24Cが、通信部76C及びネットワーク72を介して、音声データをホスト装置74から受け付ける(ステップS500)。次に、分割部25Cが、上記ステップS500で第1受付部24が受け付けた音声データを、複数の発言データに分割する(ステップS502)。
次に、付与部26Cが、第1データを生成する(ステップS504)。なお、第1データの生成は、実施の形態1と同様である。そして、付与部26Cは、作成した第1データを、記憶部18Cに記憶する。
次に、通信部76Cが、ステップS500で受け付けた音声データに含まれる複数の発言データの内、話者名称設定対象の発言データを選択するための入力画面、及び第1データをホスト装置74へ送信する(ステップS506)。
第2受付部28Cが、話者名称設定対象の発言データを示す指示情報を、ホスト装置74から受け付けたか否かを判断する(ステップS508)。第2受付部28Cは、ステップS508で肯定判断(ステップS508:Yes)するまで否定判断(ステップS508:No)を繰り返す。第2受付部28Cは、ステップS508で肯定判断(ステップS508:Yes)すると、ステップS510へ進む。
次に、生成部30Cが、上記ステップS508の処理によって受け付けた指示情報に含まれる発言IDに対応する話者IDを記憶部18Cから取得する(ステップS510)。次に、生成部30Cは、記憶部18Cに記憶されている操作履歴情報を読み取る(ステップS512)。
そして、生成部30Cは、候補リスト生成処理を実行する(ステップS514)。なお、ステップS514の候補リスト生成処理は、実施の形態1の候補リスト生成処理(図15のステップS114参照)と同様である。
次に、通信部76Cが、ステップS514の処理によって生成部30Cで生成された候補リストを、話者名称設定対象の発言データに対応する話者名称の入力欄に表示した入力画面を、ホスト装置74へ送信する(ステップS516)。
次に、第3受付部31Cが、話者名称設定対象の発言データに対して、ユーザによって設定された話者名称をホスト装置74から受け付けたか否かを判断する(ステップS518)。第3受付部31Cは、ステップS518で肯定判断(ステップS518:Yes)するまで否定判断(ステップS518:No)を繰り返す。第3受付部31Cは、ステップS518で肯定判断すると(ステップS518:Yes)、ステップS520へ進む。
通信部76Cは、上記ステップS518で受け付けた話者名称をホスト装置74へ送信する(ステップS520)。
そして、第3受付部31Cは、上記ステップS518で受け付けた話者名称を、上記ステップS508で受け付けた話者名称設定対象の発言データの発言IDに対応づけて、操作履歴情報に記憶する(ステップS522)。ステップS522の処理によって、記憶部18Cに格納されている操作履歴情報が、ユーザによって発言データに話者名称が設定される度に、更新されることとなる。
次に、情報処理部12Cが、情報処理の終了か否かを判断する(ステップS524)。例えば、情報処理部12Cは、ホスト装置74から情報処理の終了を示す信号を受け付けたか否かを判別することで、ステップS524の判断を行う。
ステップS524で否定判断すると(ステップS524:No)、上記ステップS506へ戻る。一方、ステップS524で肯定判断すると(ステップS524:Yes)、本ルーチンを終了する。
次に、ホスト装置74で実行する情報処理を説明する。
図30は、ホスト装置74が実行する情報処理の手順を示すフローチャートである。
まず、取得部14Cが、音声データを受け付ける(ステップS600)。次に、通信部78CがステップS600で受け付けた音声データをサーバ装置70へ送信する(ステップS602)。
次に、通信部78Cが、入力画面及び第1データをサーバ装置70から受信するまで否定判断を繰り返す(ステップS604:No)。ステップS604で肯定判断すると(ステップS604:Yes)、ステップS606へ進む。
ステップS606では、制御部79Cが、ステップS604で受け付けた入力画面を表示部22Cに表示する制御を行う(ステップS606)。
次に、制御部79Cが、話者名称設定対象の発言データを示す指示情報をユーザから受け付けたか否かを判断する(ステップS608)。制御部79Cは、ユーザによる入力部20Cの操作指示によって該入力部20Cから指示情報を受け付けたか否かを判別することで、ステップS608の判断を行う。
制御部79Cは、ステップS608で肯定判断(ステップS608:Yes)するまで否定判断(ステップS608:No)を繰り返す。制御部79Cは、ステップS608で肯定判断(ステップS608:Yes)すると、ステップS610へ進む。
次に、通信部78Cが、ステップS608で受け付けた指示情報を、サーバ装置70へ送信する(ステップS610)。
次に、通信部78Cが、候補リストを話者名称設定対象の発言データに対応する話者名称の入力欄に表示した入力画面を、サーバ装置70から受信するまで否定判断を繰り返す(ステップS612:No)。ステップS612で肯定判断すると(ステップS612:Yes)、ステップS614へ進む。次に、制御部79Cが、ステップS612で受信した入力画面を表示部22Cに表示する(ステップS614)。これによって、表示部22Cは、ステップS608の処理によってユーザから受け付けた話者名称設定対象の発言データに対応する話者名称の入力欄に候補リストを表示する。
次に、制御部79Cが、話者名称設定対象の発言データに対して、ユーザによって設定された話者名称を入力部20Cから受け付けたか否かを判断する(ステップS616)。制御部79Cは、ステップS616で肯定判断(ステップS616:Yes)するまで否定判断(ステップS616:No)を繰り返す。制御部79Cは、ステップS616で肯定判断すると(ステップS616:Yes)、ステップS618へ進む。
次に、通信部78CがステップS616で受け付けた話者名称をサーバ装置70へ送信する(ステップS618)。また、制御部79Cは、ステップS616で受け付けた話者名称を、上記ステップS608で受け付けた話者名称設定対象の発言データの、話者名称の表示欄に表示する(ステップS620)。
次に、制御部79Cが、情報処理の終了か否かを判断する(ステップS622)。例えば、制御部79Cは、ユーザの操作指示によって入力部20Cから情報処理の終了を示す信号を受け付けたか否かを判別することで、ステップS622の判断を行う。
ステップS622で否定判断すると(ステップS622:No)、上記ステップS604へ戻る。一方、ステップS622で肯定判断すると(ステップS622:Yes)、本ルーチンを終了する。
以上説明したように、本実施の形態では、情報処理装置12(情報処理装置12A、情報処理装置12B)の機能の一部を、ネットワーク72上のサーバ装置70上に実装し、サーバ装置70側で候補リストの生成を行う。このため、実施の形態1の効果の他、複数のホスト装置74が存在する場合であっても、操作履歴情報の更新等を一括して行うことができる。
(実施の形態5)
上記に説明した実施の形態1〜実施の形態4の情報処理装置12、情報処理装置12A、情報処理装置12B、サーバ装置70、及びホスト装置74は、CPU、ROM、RAM、及びHDD等がバスにより相互に接続されており、通常のコンピュータを利用したハードウェア構成となっている。
本実施の形態1〜実施の形態4の情報処理装置12、情報処理装置12A、情報処理装置12B、サーバ装置70、及びホスト装置74で実行される上記情報処理を実行するためのプログラムは、ROM等に予め組み込んで提供される。
なお、本実施の形態1〜実施の形態4の情報処理装置12、情報処理装置12A、情報処理装置12B、サーバ装置70、及びホスト装置74で実行されるプログラムは、これらの装置にインストール可能な形式または実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供するように構成してもよい。
また、本実施の形態1〜実施の形態4の情報処理装置12、情報処理装置12A、情報処理装置12B、サーバ装置70、及びホスト装置74で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施の形態1〜実施の形態4の情報処理装置12、情報処理装置12A、情報処理装置12B、サーバ装置70、及びホスト装置74における上記情報処理を実行するためのプログラムを、インターネット等のネットワーク経由で提供または配布するように構成してもよい。
本実施形態1〜実施の形態4の情報処理装置12、情報処理装置12A、情報処理装置12B、サーバ装置70、及びホスト装置74で実行される上記情報処理を実行するためのプログラムは、上述した各部が主記憶装置上に生成されるようになっている。
なお、上記HDDに格納されている各種情報、すなわち記憶部18、記憶部18A、及び記憶部18Bに格納されている各種情報は、外部装置(例えばサーバ)に格納してもよい。この場合には、該外部装置と各情報処理装置12、情報処理装置12A、情報処理装置12B、サーバ装置70、及びホスト装置74とを、ネットワーク等を介して接続した構成とすればよい。
なお、上記には、本発明のいくつかの実施の形態を説明したが、これらの実施の形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施の形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施の形態やその変形は、発明の範囲や要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
12、12A、12B 情報処理装置
24 第1受付部
25 分割部
26 付与部
28 第2受付部
30 生成部
34 第1算出部
36 第2算出部
38、38A、38B 第3算出部
40 第4算出部
50 第5算出部
52 第2取得部

Claims (8)

  1. 話者の発言データを含む音声データを受け付ける第1受付部と、
    前記音声データを前記発言データ毎に分割する分割部と、
    前記発言データの音響的特徴に基づいて、前記発言データに話者識別情報を付与する付与部と、
    前記音声データに含まれる前記発言データの内、話者名称設定対象の発言データを示す指示情報を、ユーザから受け付ける第2受付部と、
    少なくとも、前記発言データの発言識別情報と、付与された前記話者識別情報と、前記発言識別情報によって特定される前記発言データに対してユーザによって設定された話者名称と、を対応づけた操作履歴情報に基づいて、前記指示情報によって特定される前記発言データにユーザが設定する話者名称の候補を、ユーザによって設定される可能性の高さを示すスコアの高い順に配列した候補リストを生成する生成部と、
    前記候補リストを前記指示情報によって特定される前記発言データに対応する話者名称の入力欄に表示する第1制御部と、
    を備える情報処理装置。
  2. 前記生成部は、前記操作履歴情報に基づいて、前記候補とする話者名称と、前記指示情報によって特定される発言データに該話者名称の設定される確率の高さと、の対応を示す前記候補リストを生成する、請求項1に記載の情報処理装置。
  3. 前記発言識別情報は、前記発言データを一意に識別すると共に、前記音声データにおける前記発言データの時系列的な順列を示し、
    前記生成部は、
    前記操作履歴情報に示される前記話者識別情報と前記話者名称との対応関係から、該話者識別情報に該話者名称が対応づけられた第1確率を算出する第1算出部と、
    前記操作履歴情報に示される前記話者名称の各々が、時系列的に直前の発言データに対応する話者名称の次に設定された第2確率を算出する第2算出部と、
    前記指示情報によって特定される前記発言データに対応する前記話者識別情報、前記第1確率、及び前記第2確率に基づいて、前記操作履歴情報に示される前記話者名称の各々について、前記話者名称設定対象の前記発言データに対して前記スコアを算出する第3算出部と、
    を含み、
    前記第3算出部によって算出された前記スコアの高い順に予め定めた数の話者名称を選択し、選択した話者名称の前記候補を示す前記候補リストを生成する、
    請求項1または請求項2に記載の情報処理装置。
  4. 前記生成部は、前記第3算出部によって算出された前記スコアの高い順に予め定めた数の話者名称を選択し、選択した話者名称を前記スコアの高い順に配列した前記候補リストを生成する、請求項3に記載の情報処理装置。
  5. 前記操作履歴情報は、
    前記発言識別情報によって特定される前記発言データに対して、ユーザが設定したテキストデータをさらに含み、
    前記生成部は、
    少なくとも前記話者名称設定対象の発言データから、前記操作履歴情報に示される前記話者名称の各々に属する話者特定情報を抽出する抽出部と、
    少なくとも前記話者名称設定対象の発言データのテキストデータに、前記操作履歴情報に示される各話者名称に属する前記話者特定情報が含まれる第3確率を算出する第4算出部と、
    を更に含み、
    前記第3算出部は、
    前記指示情報によって特定される前記発言データに対応する前記話者識別情報、前記第1確率、前記第2確率、及び前記第3確率に基づいて、前記操作履歴情報に示される前記話者名称の各々について前記スコアを算出する、
    請求項3に記載の情報処理装置。
  6. 前記操作履歴情報は、
    前記発言識別情報によって特定される前記発言データ毎の、現在より所定回数前までの再生操作についての再生回数をさらに含み、
    前記生成部は、
    前記操作履歴情報に基づいて、前記音声データに含まれる前記発言データ毎の最近の再生回数を取得する第2取得部と、
    前記操作履歴情報に示される前記話者名称の各々について、各話者名称に対応する前記発言データの再生回数に基づいて、各話者名称に対応する前記発言データの再生確率を示す第4確率を算出する第5算出部を更に備え、
    前記第3算出部は、
    前記指示情報によって特定される前記発言データに対応する前記話者識別情報、前記第1確率、前記第2確率、及び前記第4確率に基づいて、前記操作履歴情報に示される前記話者名称の各々について、前記話者名称設定対象の前記発言データに対して前記スコアを算出する、
    請求項3に記載の情報処理装置。
  7. コンピュータを、
    話者の発言データを含む音声データを受け付ける第1受付部と、
    前記音声データを前記発言データ毎に分割する分割部と、
    前記発言データの音響的特徴に基づいて、前記発言データに話者識別情報を付与する付与部と、
    前記音声データに含まれる前記発言データの内、話者名称設定対象の発言データを示す指示情報を、ユーザから受け付ける第2受付部と、
    少なくとも、前記発言データの発言識別情報と、付与された前記話者識別情報と、前記発言識別情報によって特定される前記発言データに対してユーザによって設定された話者名称と、を対応づけた操作履歴情報に基づいて、前記指示情報によって特定される前記発言データにユーザが設定する話者名称の候補を、ユーザによって設定される可能性の高さを示すスコアの高い順に配列した候補リストを生成する生成部と、
    前記候補リストを前記指示情報によって特定される前記発言データに対応する話者名称の入力欄に表示する第1制御部と、
    して機能させるプログラム。
  8. 話者の発言データを含む音声データを受け付け、
    前記音声データを前記発言データ毎に分割し、
    前記発言データの音響的特徴に基づいて、前記発言データに話者識別情報を付与し、
    前記音声データに含まれる前記発言データの内、話者名称設定対象の発言データを示す指示情報を、ユーザから受け付け、
    少なくとも、前記発言データの発言識別情報と、付与された前記話者識別情報と、前記発言識別情報によって特定される前記発言データに対してユーザによって設定された話者名称と、を対応づけた操作履歴情報に基づいて、前記指示情報によって特定される前記発言データにユーザが設定する話者名称の候補を、ユーザによって設定される可能性の高さを示すスコアの高い順に配列した候補リストを生成
    前記候補リストを前記指示情報によって特定される前記発言データに対応する話者名称の入力欄に表示する、
    情報処理方法。
JP2012179023A 2012-08-10 2012-08-10 情報処理装置、プログラム、及び情報処理方法 Active JP5743976B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012179023A JP5743976B2 (ja) 2012-08-10 2012-08-10 情報処理装置、プログラム、及び情報処理方法
US13/960,232 US9196253B2 (en) 2012-08-10 2013-08-06 Information processing apparatus for associating speaker identification information to speech data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012179023A JP5743976B2 (ja) 2012-08-10 2012-08-10 情報処理装置、プログラム、及び情報処理方法

Publications (2)

Publication Number Publication Date
JP2014038132A JP2014038132A (ja) 2014-02-27
JP5743976B2 true JP5743976B2 (ja) 2015-07-01

Family

ID=50066837

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012179023A Active JP5743976B2 (ja) 2012-08-10 2012-08-10 情報処理装置、プログラム、及び情報処理方法

Country Status (2)

Country Link
US (1) US9196253B2 (ja)
JP (1) JP5743976B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014202848A (ja) 2013-04-03 2014-10-27 株式会社東芝 テキスト生成装置、方法、及びプログラム
WO2014199596A1 (ja) * 2013-06-10 2014-12-18 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 話者識別方法、話者識別装置及び話者識別システム
KR102517219B1 (ko) * 2017-11-23 2023-04-03 삼성전자주식회사 전자장치 및 그 제어방법
JP6672399B2 (ja) * 2018-08-13 2020-03-25 Dynabook株式会社 電子機器
US11017782B2 (en) * 2018-11-14 2021-05-25 XMOS Ltd. Speaker classification
JP7218547B2 (ja) * 2018-11-16 2023-02-07 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
RU2744063C1 (ru) * 2018-12-18 2021-03-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и система определения говорящего пользователя управляемого голосом устройства
EP3940695A4 (en) 2019-03-15 2022-03-30 Fujitsu Limited EDITING SUPPORT PROGRAM, EDITING SUPPORT METHOD AND EDITING SUPPORT DEVICE

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6317710B1 (en) * 1998-08-13 2001-11-13 At&T Corp. Multimedia search apparatus and method for searching multimedia content using speaker detection by audio data
US6754631B1 (en) * 1998-11-04 2004-06-22 Gateway, Inc. Recording meeting minutes based upon speech recognition
US6477491B1 (en) * 1999-05-27 2002-11-05 Mark Chandler System and method for providing speaker-specific records of statements of speakers
JP2000352995A (ja) * 1999-06-14 2000-12-19 Canon Inc 会議音声処理方法および記録装置、情報記憶媒体
JP3899290B2 (ja) * 2002-06-10 2007-03-28 富士通株式会社 発信者特定方法、プログラム、装置及び記録媒体
JP2005274680A (ja) * 2004-03-23 2005-10-06 National Institute Of Information & Communication Technology 会話分析方法、会話分析装置、および会話分析プログラム
US8243902B2 (en) * 2007-09-27 2012-08-14 Siemens Enterprise Communications, Inc. Method and apparatus for mapping of conference call participants using positional presence
JP2010060850A (ja) * 2008-09-04 2010-03-18 Nec Corp 議事録作成支援装置、議事録作成支援方法、議事録作成支援用プログラム及び議事録作成支援システム
JP5230715B2 (ja) * 2010-12-08 2013-07-10 ヤフー株式会社 検索支援装置

Also Published As

Publication number Publication date
JP2014038132A (ja) 2014-02-27
US9196253B2 (en) 2015-11-24
US20140046666A1 (en) 2014-02-13

Similar Documents

Publication Publication Date Title
JP5743976B2 (ja) 情報処理装置、プログラム、及び情報処理方法
US10991374B2 (en) Request-response procedure based voice control method, voice control device and computer readable storage medium
US10347250B2 (en) Utterance presentation device, utterance presentation method, and computer program product
JP2020012954A (ja) 情報処理装置、情報処理方法、およびプログラム
JP7040449B2 (ja) 音声処理装置、情報処理装置、音声処理方法および情報処理方法
JP2020095210A (ja) 議事録出力装置および議事録出力装置の制御プログラム
US10216732B2 (en) Information presentation method, non-transitory recording medium storing thereon computer program, and information presentation system
JP2015087544A (ja) 音声認識装置及び音声認識プログラム
JP6708537B2 (ja) カラオケシステム
JP5997813B2 (ja) 話者分類装置、話者分類方法および話者分類プログラム
JP5907231B1 (ja) 入力情報支援装置、入力情報支援方法および入力情報支援プログラム
JP4254753B2 (ja) 話者認識方法
JP4779365B2 (ja) 発音矯正支援装置
JP6810363B2 (ja) 情報処理装置、情報処理システム、および情報処理プログラム
JPWO2020116001A1 (ja) 情報処理装置および情報処理方法
US10505879B2 (en) Communication support device, communication support method, and computer program product
JP4877112B2 (ja) 音声処理装置およびプログラム
KR20210132115A (ko) 편집 지원 프로그램, 편집 지원 방법 및 편집 지원 장치
JP6112239B2 (ja) 入力情報支援装置、入力情報支援方法および入力情報支援プログラム
KR102334310B1 (ko) 전사작업 매칭서버 및 그 동작방법
CN113228170B (zh) 信息处理装置及非易失性存储介质
JP7230085B2 (ja) 音声を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
JP2017182822A (ja) 入力情報支援装置、入力情報支援方法および入力情報支援プログラム
JP7079650B2 (ja) カラオケシステム
JP2016119107A (ja) 入力情報支援装置、入力情報支援方法および入力情報支援プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140620

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140805

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141006

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150407

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150428

R151 Written notification of patent or utility model registration

Ref document number: 5743976

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350