JP2011158856A - 録音装置およびインデックス情報付与方法 - Google Patents

録音装置およびインデックス情報付与方法 Download PDF

Info

Publication number
JP2011158856A
JP2011158856A JP2010022768A JP2010022768A JP2011158856A JP 2011158856 A JP2011158856 A JP 2011158856A JP 2010022768 A JP2010022768 A JP 2010022768A JP 2010022768 A JP2010022768 A JP 2010022768A JP 2011158856 A JP2011158856 A JP 2011158856A
Authority
JP
Japan
Prior art keywords
key
voice
key voice
data
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010022768A
Other languages
English (en)
Other versions
JP5413223B2 (ja
Inventor
Yoshifumi Inoue
喜文 井上
Naokatsu Yokosaka
直克 横坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nakayo Telecommunications Inc
Original Assignee
Nakayo Telecommunications Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nakayo Telecommunications Inc filed Critical Nakayo Telecommunications Inc
Priority to JP2010022768A priority Critical patent/JP5413223B2/ja
Publication of JP2011158856A publication Critical patent/JP2011158856A/ja
Application granted granted Critical
Publication of JP5413223B2 publication Critical patent/JP5413223B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】より安価な構成で音声ファイルにインデックス情報を迅速に付与することが可能な技術を提供する。
【解決手段】キーボイス登録部106は、キーボイス受付部105およびキーボイスインデックス・話者種別受付部104を介して、ユーザから受け付けたキーボイスデータおよびインデックス情報を、互いに対応付けてキーボイス記憶部102に記憶する。キーボイス特定部109は、録音制御部108による通話データの録音に際して、この通話データに含まれているキーボイスデータを特定し、特定したキーボイスデータに対応付けられてキーボイス記憶部102に記憶されているインデックス情報を、この通話データの録音により作成されて音声ファイル記憶部103に記憶された音声ファイルに関連付ける。
【選択図】図1

Description

本発明は、通話録音装置、ボイスレコーダ、留守番電話機等の録音装置に関し、特に録音された音声ファイルの管理技術に関する。
特許文献1には、多数の文書ファイルを容易に階層化分類するとともに、目的の文書ファイルを容易かつ迅速に選別することが可能なファイル管理装置が開示されている。このファイル管理装置は、文書ファイルの内容からキーワードを自動抽出し、これをインデックス情報として名前、日付等の属性情報とともに文書ファイルに付与する。また、予め設定された分類条件に従ってパス(ファイル格納先)を決定し、この決定されたパスへ文書ファイルを移動させる。
特開2000−293542号公報
音声ファイルの管理に特許文献1に記載のファイル管理装置を利用する場合、ファイル内容からキーワードを自動抽出するためには、音声ファイルを文書ファイルに変換する必要がある。このため、音響モデル、辞書、言語モデル等の音声認識機能を実現するための構成が別途必要となり、コストがかかる。また、音声ファイルを文書ファイルに変換するため、その分、インデックス情報が音声ファイルに付与されるまでに時間がかかる。
本発明は上記事情に鑑みてなされたものであり、本発明の目的は、より安価な構成で音声ファイルにインデックス情報を迅速に付与することが可能な技術を提供することにある。
上記課題を解決するために、本発明は、索引キーとなる音声データであるキーボイスデータごとに、キーボイスデータを含む音声ファイルに付与するインデックス情報を予め登録しておく。そして、会話データの録音に際して、この会話データに含まれているキーボイスデータを特定し、特定したキーボイスデータに対応するインデックス情報を、この会話データの録音により作成された音声ファイルに関連付ける。
例えば、本発明は、会話データを録音して音声ファイルを作成する録音装置であって、
索引キーとなる音声データであるキーボイスデータをインデックス情報とともに受け付けるキーボイス受付手段と、
前記キーボイス受付手段により受け付けた前記キーボイスデータおよび前記インデックス情報を互いに対応付けて記憶するキーボイス記憶手段と、
前記会話データに含まれている前記キーボイスデータを特定するキーボイス特定手段と、
前記キーボイス特定手段により特定された前記キーボイスデータに対応付けられて前記キーボイス記憶手段に記憶されている前記インデックス情報を、前記会話データの録音により作成された前記音声ファイルに関連付けるインデック付与手段と、を有する。
本発明によれば、音声ファイルを文書ファイルに変換することなく、音声ファイルにインデックス情報を付与するので、より安価な構成で音声ファイルにインデックス情報を迅速に付与できる。
図1は、本発明の一実施の形態に係る通話録音装置1の概略機能構成図である。 図2(A)は、キーボイス記憶部102の登録内容例を模式的に表した図であり、図2(B)は、音声ファイル記憶部103の登録内容例を模式的に表した図である。 図3は、本発明の一実施の形態に係る通話録音装置1の動作を説明するためのフロー図である。 図4は、図3のS21に示す録音処理を説明するためのフロー図である。 図5は、図3のS41に示すボイス検索処理を説明するためのフロー図である。
以下に、本発明の実施の形態について説明する。
図1は、本発明の一実施の形態に係る通話録音装置1の概略機能構成図である。
本実施の形態に係る通話録音装置1は、電話機に内蔵もしくは外付けされ、この電話機による通話を録音する。
図示するように、通話録音装置1は、操作部101と、キーボイス記憶部102と、音声ファイル記憶部103と、キーボイスインデックス・話者種別受付部104と、キーボイス受付部105と、キーボイス登録部106と、通話データ入力部107と、録音制御部108と、キーボイス特定部109と、サーチインデックス受付部110と、サーチボイス話者種別受付部111と、サーチボイス受付部112と、キーボイス検索部113と、音声ファイル検索部114と、検索結果出力部115と、再生制御部116と、通話データ出力部117と、を有する。
操作部101は、ユーザから各種操作を受け付けるためのインターフェースである。
キーボイス記憶部102には、索引キーとなる音声データ(以下、キーボイスデータ)が記憶される。図2(A)は、キーボイス記憶部102の登録内容例を模式的に表した図である。図示するように、キーボイス記憶部102には、キーボイスデータごとにレコード1020が記憶される。レコード1020は、キーボイスデータを登録するフィールド1021と、このキーボイスデータを含む音声ファイルに関連付けるインデックス情報を登録するフィールド1022〜1024と、このキーボイスデータを特定話者として取り扱うか、それとも不特定話者として取り扱うかを示す話者種別を登録するためのフィールド1025と、を有する。ここでは、インデックス情報として、インデックスID、インデックス名、およびインデックス種別が、フィールド1022、フィールド1023、およびフィールド1024に登録される。
音声ファイル記憶部103には、通話データの録音により作成された音声ファイルが記憶される。図2(B)は、音声ファイル記憶部103の登録内容例を模式的に表した図である。図示するように、音声ファイル記憶部103には、音声ファイルごとにレコード1030が記憶される。レコード1030は、音声ファイルを登録するフィールド1031と、この音声ファイルについてのインデックス付与情報のリストを登録するフィールド1032と、を有する。フィールド1031は、通話データを登録するサブフィールド10311と、音声ファイルの属性情報を登録するサブフィールド10312と、を有する。ここで、インデックス付与情報は、例えば、音声ファイルに関連付けられたインデックス情報のインデックスIDと、音声ファイルへのインデックス情報の付与回数(関連付け回数)との対応情報からなる。また、属性情報は、例えば、ファイル名、登録日時等からなる。
キーボイスインデックス・話者種別受付部104は、操作部101を介してユーザから、キーボイス記憶部102に記憶するインデックス名、インデックス種別、および話者種別を受け付ける。
キーボイス受付部105は、キーボイスインデックス・話者種別受付部104の指示に従い、図示していないマイク等を介してユーザからキーボイスデータを受け付ける。
キーボイス登録部106は、インデックスIDを生成し、このインデックスIDと、キーボイスインデックス・話者種別受付部104より受け付けたインデックス名、インデックス種別、および話者種別とともに、キーボイス受付部105により受け付けたキーボイスデータを、キーボイス記憶部102に記憶する。
通話データ入力部107には、本通話録音装置1が内蔵もしくは外付けされた電話機の通話データが入力される。
録音制御部108は、本通話録音装置1が内蔵もしくは外付けされた電話機の通話状態を監視する。そして、通話が開始されると、通話データ入力部107に入力される通話データを録音して、音声ファイル記憶部103に音声ファイルを作成するとともに、キーボイス特定部109より受け取ったインデックスIDを含むインデックス情報をこの音声ファイルに関連付ける。
キーボイス特定部109は、録音制御部108の指示に従い、通話データ入力部107に入力された通話データに含まれているキーボイスデータを特定する。そして、特定したキーボイスデータに対応付けられてキーボイス記憶部102に記憶されているインデックス情報のインデックスIDを録音制御部108に通知する。
サーチインデックス受付部110は、操作部101を介してユーザからインデックス名およびインデックス種別の少なくとも一方を検索キーとして受け付ける。そして、この検索キーを含むインデックス情報が登録されたレコード1020をキーボイス記憶部102から検索し、このレコード1020のインデックスIDを音声ファイル検索部114に通知する。
サーチボイス話者種別受付部111は、操作部101を介してユーザから、検索キーとなる音声データ(以下、サーチボイスデータ)に適用する話者種別を受け付ける。
サーチボイス受付部112は、サーチボイス話者種別受付部111の指示に従い、図示していないマイク等を介してユーザからサーチボイスデータを受け付ける。
キーボイス検索部113は、サーチボイス話者種別受付部111で受け付けた話者種別に応じて定まる判断基準(音声スペクトル、音声ピッチ等の特徴データの近似度)に従い、サーチボイス受付部112で受け付けたサーチボイスデータと近似するキーボイスデータをキーボイス記憶部102から検索する。そして、検索したキーボイスデータに対応付けられてキーボイス記憶部102に記憶されているインデックス情報のインデックスIDを音声ファイル検索部114に通知する。
音声ファイル検索部114は、サーチインデックス受付部110あるいはキーボイス検索部113から通知されたインデックスIDに基づいて、音声ファイル記憶部103から音声ファイルを検索する。
検索結果出力部115は、図示していない表示パネル等に音声ファイル検索部114での検索結果を出力する。
再生制御部116は、操作部101を介して受け付けたユーザの指示に従い、指定の音声ファイルを音声ファイル記憶部103から読み出して、通話データを再生する。
通話データ出力部117は、再生制御部116により再生された通話データを、図示していないスピーカ等から出力する。
図3は、本発明の一実施の形態に係る通話録音装置1の動作を説明するためのフロー図である。
キーボイスインデックス・話者種別受付部104は、操作部101を介してユーザからキーボイス登録指示を受け付けると(S10でYES)、図示していない表示パネル等に所定のダイアログボックスを表示するなどして、操作部101を介してユーザからインデックス名、インデックス種別、および話者種別(特定話者および不特定話者のいずれか)を受け付ける。そして、受け付けたインデックス名、インデックス種別、および話者種別をキーボイス登録部106に渡す(S11)。ここで、インデックス種別、話者種別については、例えば、プルダウンメニューのなかから所望のものをユーザに選択させてもよい。
つぎに、キーボイスインデックス・話者種別受付部104は、キーボイス受付部105にキーボイスデータの受付を指示するとともに、図示していない表示パネル等に所定のメッセージを表示するなどして、ユーザにキーボイスデータの入力を促す。これを受けて、キーボイス受付部105は、図示していないマイク等を介してユーザからキーボイスデータを受け付けて、このキーボイスデータをキーボイス登録部106に渡す(S12)。
つぎに、キーボイス登録部106は、新たなインデックスIDを生成するとともに、キーボイス記憶部102に新たなレコード1020を追加する。そして、このレコード1020のフィールド1021に、キーボイス受付部105から受け取ったキーボイスデータを登録し、フィールド1022に、生成したインデックスIDを登録する。また、フィールド1023、フィールド1024、およびフィールド1025に、キーボイスインデックス・話者種別受付部104から受け取ったインデックス名、インデックス種別、および話者種別を登録する(S13)。その後、図3のスタートに戻る。
また、録音制御部108は、本通話録音装置1が内蔵もしくは外付けされた電話機に通話路が確立され、通話が開始すると(S20でYES)、通話データ入力部107およびキーボイス特定部109と連携して、後述の録音処理を開始する(S21)。
また、サーチインデックス受付部110は、操作部101を介してユーザからワード検索指示を受け付けると(S30でYES)、図示していない表示パネル等に所定のダイアログボックスを表示するなどして、操作部101を介してユーザからインデックス名およびインデックス種別の少なくとも一方を検索キーとして受け付ける(S31)。ここで、例えば、プルダウンメニューのなかから所望のインデックス名、インデックス種別をユーザに選択させてもよい。
つぎに、サーチインデックス受付部110は、受け付けた検索キーを含むインデックス情報が登録されたレコード1020を、キーボイス記憶部102から検索する。そして、検索にヒットしたレコード1020のフィールド1022に登録されているインデックスIDを、音声ファイル検索部114に通知する(S32)。
これを受けて、音声ファイル検索部114は、通知されたインデックスIDを用いて、音声ファイル記憶部103から音声ファイルのレコード1030を検索する(S33)。具体的には、通知されたインデックスIDを含むインデックス付与情報がフィールド1032に登録されているレコード1030を検索する。
つぎに、音声ファイル検索部114は、検索結果出力部115に検索結果を渡す。具体的には、検索にヒットした各レコード1030のサブフィールド10312に登録されている音声ファイルの属性情報を検索結果出力部115に渡す。これを受けて、検索結果出力部115は、音声ファイルの属性情報のリストを、図示していない表示パネル等に出力する(S34)。ここで、音声ファイルの属性情報は、例えば、インデックス付与情報の付与回数の多い順にリスト表示されるようにしてもよい。
なお、S33において、いずれのレコード1030もヒットしなかった場合、音声ファイル検索部114は、検索に失敗した旨のメッセージを検索結果出力部115に渡し、検索結果出力部115は、S34において、図示していない表示パネル等にその旨のメッセージを表示する。その後、図3のスタートに戻る。
つぎに、再生制御部116は、操作部101を介してユーザから、再生対象の音声ファイルの属性情報が指定されると(S35でYES)、指定された属性情報がサブフィールド10312に登録されているレコード1030のサブフィールド10311に登録されている通話データを音声ファイル記憶部103から読み出して再生する。通話データ出力部117は、再生制御部116により再生された通話データを、図示していないスピーカ等から出力する(S36)。その後、図3のスタートに戻る。
また、サーチボイス話者種別受付部111は、操作部101を介してユーザからボイス検索指示を受け付けると(S40でYES)、サーチボイス受付部112、キーボイス検索部113、音声ファイル検索部114、および検索結果出力部115と連携して、後述のボイス検索処理を開始する(S41)。
図4は、録音処理(図3のS21)を説明するためのフロー図である。
まず、録音制御部108は、通話データ入力部107に入力される通話データの録音を開始する(S2101)。具体的には、音声ファイル記憶部103に新たなレコード1030を記憶し、このレコード1030のサブフィールド10312に、ファイル名、登録日時等の属性情報を記憶する。ここで、例えば、予めユーザより受け付けた名称に連番を付することで、ユニークなファイル名を自動生成するようにしてもよい。また、このレコード1030のサブフィールド10311に対して、通話データ入力部107に逐次入力される通話データの記録を開始する。
つぎに、録音制御部108は、キーボイス特定部109にキーボイスデータの特定開始を指示する。これを受けて、キーボイス特定部109は、通話データ入力部107に逐次入力される通話データのバッファリングを開始する(S2102)。
つぎに、キーボイス特定部109は、バッファされた通話データ(以下、バッファデータ)の先頭(最も古くバッファリングされた部位)からスキャンし、所定時間以上継続する無音区間の検出を試みる(S2103)。そして、所定時間以上の無音区間を検出したならば(S2103でYES)、バッファデータの先頭からこの無音区間までの有音区間を検査対象データに設定する(S2104)。それから、キーボイス特定部109は、キーボイス記憶部102から未選択のレコード1020を一つ選択する(S2105)。
つぎに、キーボイス特定部109は、選択したレコード1020のフィールド1025に登録されている話者種別に応じて定まる判断基準に従い、検索対象データから、選択したレコード1020のフィールド1021に登録されているキーボイスデータの検出を試みる(S2106)。例えば、キーボイスデータとの近似度(例えば、近音声スペクトル、音声ピッチ等の特徴データの近似度)が、話者種別について予め定められた判断基準値以上の音声データを検索対象データから検出する。ここで、話者種別「不特定話者」におけるキーボイスデータ検出の判断基準は、話者種別「特定話者」におけるキーボイスデータ検出の判断基準より緩和されている。このようにすることで、話者種別「特定話者」の場合は、キーボイスデータと同じ発話者による同じフレーズの音声データのみがキーボイスデータとして検査対象データから検出される一方、話者種別「不特定話者」の場合は、キーボイスデータと異なる発話者による同じフレーズの音声データもキーボイスデータとして検査対象データから検出されるようにする。
検査対象データからのキーボイスデータ検出に失敗した場合(S2107でNO)、S2109に進む。一方、検査対象データからのキーボイスデータ検出に成功した場合(S2107でYES)、キーボイス特定部109は、選択したレコード1020のフィールド1022に登録されているインデックスIDを録音制御部108に通知する。これを受けて、録音制御部108は、S2101で音声ファイル記憶部103に新たに追加したレコード1030(サブフィールド10311に通話データを記録中のレコード1030)のフィールド1032に、キーボイス特定部109から受け取ったインデックスIDを含むインデックス付与情報を登録する(S2108)。ここで、同じインデックスIDを含むインデックス付与情報がフィールド1032に未登録ならば、このインデックスIDと、キーボイスデータの検出数に設定された付与回数とを含むインデックス付与情報をフィールド1032に追加する。一方、同じインデックスIDを含むインデックス付与情報がフィールド1032に登録済みならば、このインデックス付与情報の付与回数を、キーボイスデータの検出数分インクリメントする。それから、S2109に進む。
S2109において、キーボイス特定部109は、キーボイス記憶部102に未選択のレコード1020があるか否かを調べる。
キーボイス記憶部102に未選択のレコード1020がある場合は(S2109でYES)、S2105に戻る。一方、キーボイス記憶部102に未選択のレコード1020がない場合(S2109でNO)、キーボイス特定部109は、バッファデータから検査対象データを破棄する(S2110)。そして、検査対象データの破棄後もバッファデータが残存しているならば(S2111でYES)、S2103に戻り、バッファデータが残存していないならば(S2111でNO)、S2112に進む。
さて、S2112において、録音制御部108は、本通話録音装置1が内蔵もしくは外付けされた電話機の通話路が切断され、通話が終了しているか否かを判断する。通話が終了していなければ(S2112でNO)、S2111に戻る。一方、通話が終了しているならば(S2112でYES)、録音制御部108は、通話データの録音を終了する(S2113)。具体的には、S2101で音声ファイル記憶部103に追加した新たなレコード1030のサブフィールド10311に対する通話データの記録を終了する。それから、録音制御部108は、キーボイス特定部109にキーボイスデータの特定終了を指示する。これを受けて、キーボイス特定部109は、通話データのバッファリングを終了する(S2114)。その後、図3のスタートに戻る。
図5は、ボイス検索処理(図3のS41)を説明するためのフロー図である。
まず、サーチボイス話者種別受付部111は、図示していない表示パネル等に所定のダイアログボックスを表示するなどして、操作部101を介してユーザから話者種別(特定話者および不特定話者のいずれか)を受け付ける。そして、受け付けた話者種別をキーボイス検索部113に渡す(S4101)。ここで、話者種別について、例えば、プルダウンメニューのなかから所望のものをユーザに選択させてもよい。
つぎに、サーチボイス話者種別受付部111は、サーチボイス受付部112にサーチボイスデータの受付を指示するとともに、図示していない表示パネル等に所定のメッセージを表示するなどして、ユーザにサーチボイスデータの入力を促す。これを受けて、サーチボイス受付部112は、図示していないマイク等を介してユーザからサーチボイスデータを受け付ける。そして、受け付けたサーチボイスデータをキーボイス検索部113に渡す(S4102)。
つぎに、キーボイス検索部113は、キーボイス記憶部102から未選択のレコード1020を一つ選択する(S4103)。そして、選択したレコード1020のフィールド1021に登録されているキーボイスデータと、サーチボイス受付部112から受け取ったサーチボイスデータとを比較して、両者の近似度(音声スペクトル、音声ピッチ等の特徴データの近似度)を求める(S4104)。
それから、キーボイス検索部113は、キーボイスデータおよびサーチボイスデータの近似度が、サーチボイス話者種別受付部111から渡された話者種別についての判断基準値以上である否かを調べる(S4105)。そして、キーボイスデータおよびサーチボイスデータの近似度が判断基準値未満ならば(S4105でNO)、S4107に進む。一方、キーボイスデータおよびサーチボイスデータの近似度が判断基準値以上ならば(S4105でYES)、キーボイス検索部113は、選択したレコード1020のフィールド1022に登録されているインデックスIDを抽出し(S4106)、それから、S4107に進む。
S4107において、キーボイス検索部113は、キーボイス記憶部102に未選択のレコード1020があるか否かを調べる。未選択のレコード1020がある場合は(S4107でYES)、S4103に戻る。一方、未選択のレコード1020がない場合は(S4107でNO)、インデックスIDを少なくとも一つ抽出できたならば、S4108に進み、インデックスIDを一つも抽出できなかったならば、例えば、話者種別またはサーチボイスデータの再入力を促すメッセージを、図示しない表示パネル等に出力して、S4101に戻る。
S4108において、キーボイス検索部113は、S4106で抽出されたインデックスIDのなかから未選択のインデックスIDを選択する。そして、選択したインデックスIDを音声ファイル検索部114に渡す。これを受けて、音声ファイル検索部114は、キーボイス検索部113から渡されたインデックスIDを用いて、音声ファイル記憶部103から音声ファイルのレコード1030を検索する(S4109)。具体的には、インデックスIDを含むインデックス付与情報がフィールド1032に登録されているレコード1030を検索する。
つぎに、キーボイス検索部113は、S4106で抽出されたインデックスIDのなかに未選択のインデックスIDがあるか否かを調べる(S4110)。未選択のインデックスIDがある場合は(S4110でYES)、S4108に戻る。一方、未選択のインデックスIDがない場合は(S4110でNO)、キーボイス検索部113は、音声ファイル検索部114に検索結果の出力を指示する。これを受けて、音声ファイル検索部114は、検索結果出力部115に検索結果を渡す。具体的には、検索にヒットした各レコード1030のサブフィールド10312に登録されている音声ファイルの属性情報を検索結果出力部115に渡す。これを受けて、検索結果出力部115は、音声ファイルの属性情報のリストを、図示していない表示パネル等に出力する(S4111)。その後、図3のS35へ進む。ここで、検索結果出力部115は、音声ファイルの属性情報を、ヒットしたインデックスIDの多い順にリスト表示してもよい。また、インデックスIDのヒット数が同じ音声ファイルの属性情報は、インデックス付与情報の付与回数の多い順にリスト表示してもよい。
なお、S4109において、いずれのレコード1030もヒットしなかった場合、音声ファイル検索部114は、検索に失敗した旨のメッセージを検索結果出力部115に渡す。そして、検索結果出力部115は、S4111において、図示していない表示パネル等にその旨のメッセージを表示する。その後、図3のスタートに戻る。
以上、本発明の一実施の形態を説明した。
本実施の形態に係る通話録音装置1は、ユーザから受け付けたキーボイスデータおよびインデックス情報を互いに対応付けてキーボイス記憶部102に記憶する。そして、通話データの録音に際して、この通話データに含まれているキーボイスデータを特定し、特定したキーボイスデータに対応するインデックス情報を、この通話データの録音により作成された音声ファイルに関連付ける。
したがって、本実施の形態によれば、音声ファイルを文書ファイルに変換することなく、音声ファイルにインデックス情報を関連付けることができるため、より安価な構成で音声ファイルにインデックス情報を迅速に付与できる。
また、本実施の形態に係る通話録音装置1は、ユーザから受け付けたサーチボイスデータと近似するキーボイスデータをキーボイス記憶部102から検索し、検索したキーボイスデータに対応付けられてキーボイス記憶部102に記憶されているインデックス情報のインデックスIDに基づいて音声ファイル記憶部103から音声ファイル検索する。
したがって、本実施の形態によれば、音声ファイルの検索に際し、サーチボイスデータが音声ファイルに含まれているか否かを調べる必要がないので、サーチボイスデータによる音声ファイルの検索を迅速に行うことができる。
また、本実施の形態に係る通話録音装置1は、ユーザからキーボイスデータ、インデックス名、およびインデックス種別とともに、話者種別を受け付け、これらを互いに対応付けてキーボイス記憶部102に記憶する。そして、話者種別「不特定話者」に対応付けられてキーボイス記憶部102に記憶されているキーボイスデータが通話データに含まれているか否かの判断基準を、話者種別「特定話者」に対応付けられてキーボイス記憶部102に記憶されているキーボイスデータが通話データに含まれているか否かの判断基準よりも緩和している。
したがって、本実施の形態によれば、話者種別「特定話者」の場合は、キーボイスデータと同じ発話者による同じフレーズの音声データを含む音声ファイルに対してのみ、このキーボイスデータに対応付けられたインデックス情報が付与される一方、話者種別「不特定話者」の場合は、キーボイスデータと同じ発話者による同じフレーズの音声データを含む音声ファイルだけでなく、キーボイスデータと異なる発話者による同じフレーズの音声データを含む音声ファイルに対しても、このキーボイスデータに対応付けられたインデックス情報が付与される。このため、キーボイスデータと同じフレーズを含む音声ファイルに対するインデックス情報の付与を柔軟に設定できる。
また、本実施の形態に係る通話録音装置1は、話者種別「不特定話者」に対応付けられてキーボイス記憶部102に記憶されたキーボイスデータがサーチボイスデータと近似するか否かの判断基準を、話者種別「特定話者」に対応付けられてキーボイス記憶部102に記憶されたキーボイスデータがサーチボイスデータと近似するか否かの判断基準よりも緩和している。
したがって、本実施の形態によれば、話者種別「特定話者」の場合は、キーボイスデータと同じ発話者による同じフレーズの音声データを含む音声ファイルを検索でき、一方、話者種別「不特定話者」の場合は、キーボイスデータと異なる発話者による同じフレーズの音声データを含む音声ファイルも検索できる。このため、キーボイスデータと同じフレーズを含む音声ファイルの検索を柔軟に行うことができる。
なお、本発明は上記の実施の形態に限定されるものではなく、その要旨の範囲内で数々の変形が可能である。
例えば、上記の実施の形態において、キーボイス特定部109は、バッファデータの先頭(最も古くバッファリングされた部位)から無音区間までの有音区間を検査対象データに設定しているが、バッファデータの先頭から所定時間経過後までの区間を検査対象データに設定してもよいし、あるいは、バッファデータの先頭から所定データサイズ分の区間を検査対象データに設定してもよい。また、キーボイス特定部109が十分なバッファ容量を備えているならば、通話開始から通話終了までの全通話データをバッファリングし、バッファデータ全体を検査対象データに設定してもよい。
また、上記の実施の形態においては、ボイス検索処理S41において、キーボイス検索部113に渡される話者種別およびサーチボイスデータは1組であるが、ユーザから1組以上の話者種別およびサーチボイスデータを受け付け、1組以上の話者種別およびサーチボイスデータがキーボイス検索部113に渡されるようにしてもよい。この場合、キーボイス検索部113は、話者種別およびサーチボイスデータの組ごとにS4103〜S4107を実行して、話者種別およびサーチボイスデータの組ごとにインデックスIDを抽出し、音声ファイル検索部114は、例えば、話者種別およびサーチボイスデータのすべての組のインデックスIDが少なくとも1つずつフィールド1032に登録されているレコード1030を検索する。
また、上記の実施の形態において、図1に示す通話録音装置1の機能構成は、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)などの集積ロジックICによりハード的に実現されるものでもよいし、あるいはDSP(Digital Signal Processor)などの計算機によりソフトウエア的に実現されるものでもよい。または、CPU、メモリ、HDD、DVD−ROM等の補助記憶装置、およびNIC(Network Interface Card)、モデム等の通信インターフェースを備えたPC(Personal Computer)等のコンピュータシステムにおいて、CPUが所定のプログラムを補助記憶装置からメモリ上にロードして実行することで実現されるものでもよい。
また、上記の実施の形態では、電話機に内蔵もしくは外付けされる通話録音装置1を例にとり説明したが、本発明は、ボイスレコーダ、留守番電話機等、会話データを録音する様々な録音装置に適用可能である。
1:通話録音装置、101:操作部、102:キーボイス記憶部、103:音声ファイル記憶部、104:キーボイスインデックス・話者種別受付部、105:キーボイス受付部、106:キーボイス登録部、107:通話データ入力部、108:録音制御部、109:キーボイス特定部、110:サーチインデックス受付部、111:サーチボイス話者種別受付部、112:サーチボイス受付部、113:キーボイス検索部、114:音声ファイル検索部、115:検索結果出力部、116:再生制御部、117:通話データ出力部

Claims (5)

  1. 会話データを録音して音声ファイルを作成する録音装置であって、
    索引キーとなる音声データであるキーボイスデータをインデックス情報とともに受け付けるキーボイス受付手段と、
    前記キーボイス受付手段により受け付けた前記キーボイスデータおよび前記インデックス情報を互いに対応付けて記憶するキーボイス記憶手段と、
    前記会話データに含まれている前記キーボイスデータを特定するキーボイス特定手段と、
    前記キーボイス特定手段により特定された前記キーボイスデータに対応付けられて前記キーボイス記憶手段に記憶されている前記インデックス情報を、前記会話データの録音により作成された前記音声ファイルに関連付けるインデック付与手段と、を有する
    ことを特徴とする録音装置。
  2. 請求項1に記載の録音装置であって、
    検索キーとなる音声データであるサーチボイスデータを受け付けるサーチボイス受付手段と、
    前記サーチボイス受付手段により受け付けた前記サーチボイスデータと近似する前記キーボイスデータを前記キーボイス記憶手段から検索するキーボイス検索手段と、
    前記キーボイス検索手段により検索された前記キーボイスデータに対応付けられて前記キーボイス記憶手段に記憶されている前記インデックス情報が関連付けられている音声ファイルを検索する音声ファイル検索手段と、をさらに有する
    ことを特徴とする録音装置。
  3. 請求項1または2に記載の録音装置であって、
    前記キーボイス受付手段は、
    前記キーボイスデータおよび前記インデックス情報とともに、特定話者かそれとも不特定話者かを示す話者種別情報を受け付け、
    前記キーボイス記憶手段は、
    前記キーボイス受付手段により受け付けた前記キーボイスデータ、前記インデックス情報および前記話者種別情報を互いに対応付けて記憶し、
    前記キーボイス特定手段は、
    不特定話者を示す前記話者種別情報に対応付けられて前記キーボイス記憶手段に記憶されている前記キーボイスデータが前記会話データに含まれているか否かの判断基準を、特定話者を示す前記話者種別情報に対応付けられて前記キーボイス記憶手段に記憶されている前記キーボイスデータが前記会話データに含まれているか否かの判断基準よりも緩和する
    ことを特徴とする録音装置。
  4. 請求項3に記載の録音装置であって、
    前記キーボイス検索手段は、
    不特定話者を示す前記話者種別情報に対応付けられて前記キーボイス記憶手段に記憶されている前記キーボイスデータが前記サーチボイスデータと近似するか否かの判断基準を、特定話者を示す前記話者種別情報に対応付けられて前記キーボイス記憶手段に記憶されている前記キーボイスデータが前記サーチボイスデータと近似するか否かの判断基準よりも緩和する
    ことを特徴とする録音装置。
  5. 録音装置による音声ファイルへのインデックス情報付与方法であって、
    索引キーとなる音声データであるキーボイスデータごとに、インデックス情報を録音装置に予め登録しておき、録音装置は、会話データの録音に際して、当該会話データに含まれている前記キーボイスデータを特定し、特定した前記キーボイスデータに対応する前記インデックス情報を、当該会話データの録音により作成された前記音声ファイルに関連付ける
    ことを特徴とするインデックス情報付与方法。
JP2010022768A 2010-02-04 2010-02-04 録音装置およびインデックス情報付与方法 Expired - Fee Related JP5413223B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010022768A JP5413223B2 (ja) 2010-02-04 2010-02-04 録音装置およびインデックス情報付与方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010022768A JP5413223B2 (ja) 2010-02-04 2010-02-04 録音装置およびインデックス情報付与方法

Publications (2)

Publication Number Publication Date
JP2011158856A true JP2011158856A (ja) 2011-08-18
JP5413223B2 JP5413223B2 (ja) 2014-02-12

Family

ID=44590813

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010022768A Expired - Fee Related JP5413223B2 (ja) 2010-02-04 2010-02-04 録音装置およびインデックス情報付与方法

Country Status (1)

Country Link
JP (1) JP5413223B2 (ja)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03291752A (ja) * 1990-04-10 1991-12-20 Matsushita Electric Ind Co Ltd データ検索装置
JPH05314740A (ja) * 1992-05-08 1993-11-26 Sony Corp 音声処理装置
JPH05334861A (ja) * 1992-06-03 1993-12-17 Japan Radio Co Ltd 音声検索装置
JPH1152848A (ja) * 1997-07-30 1999-02-26 Alpine Electron Inc データベース検索方式
JP2000214878A (ja) * 1999-01-22 2000-08-04 Sharp Corp 音声情報処理装置
JP2002183169A (ja) * 2000-12-11 2002-06-28 Casio Comput Co Ltd 情報登録装置、及び記録媒体
JP2006165846A (ja) * 2004-12-06 2006-06-22 Matsushita Electric Ind Co Ltd 携帯電話装置
JP2008107641A (ja) * 2006-10-26 2008-05-08 Yamaha Corp 音声データ検索装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03291752A (ja) * 1990-04-10 1991-12-20 Matsushita Electric Ind Co Ltd データ検索装置
JPH05314740A (ja) * 1992-05-08 1993-11-26 Sony Corp 音声処理装置
JPH05334861A (ja) * 1992-06-03 1993-12-17 Japan Radio Co Ltd 音声検索装置
JPH1152848A (ja) * 1997-07-30 1999-02-26 Alpine Electron Inc データベース検索方式
JP2000214878A (ja) * 1999-01-22 2000-08-04 Sharp Corp 音声情報処理装置
JP2002183169A (ja) * 2000-12-11 2002-06-28 Casio Comput Co Ltd 情報登録装置、及び記録媒体
JP2006165846A (ja) * 2004-12-06 2006-06-22 Matsushita Electric Ind Co Ltd 携帯電話装置
JP2008107641A (ja) * 2006-10-26 2008-05-08 Yamaha Corp 音声データ検索装置

Also Published As

Publication number Publication date
JP5413223B2 (ja) 2014-02-12

Similar Documents

Publication Publication Date Title
JP2010078979A (ja) 音声録音装置、録音音声検索方法及びプログラム
JP5799621B2 (ja) 情報処理装置、情報処理方法及びプログラム
US20130325469A1 (en) Method for providing voice recognition function and electronic device thereof
CN1991975A (zh) 语音信息处理设备和语音信息处理方法
CN104409087B (zh) 歌曲文件播放方法和系统
CN104348828A (zh) 用于支持语音对话服务的交互装置和方法
US20120035919A1 (en) Voice recording device and method thereof
JP2020042745A (ja) 電子機器、その制御方法、およびそのプログラム
US9083786B2 (en) Electronic device for identifying a party
US7961851B2 (en) Method and system to select messages using voice commands and a telephone user interface
US8706484B2 (en) Voice recognition dictionary generation apparatus and voice recognition dictionary generation method
KR20110053397A (ko) 검색 키워드를 이용한 멀티미디어 파일 검색 방법 및 그 휴대기기
US20140376885A1 (en) Method for playing video file and electronic device using the same
JP4513165B2 (ja) 番組記録方法及び番組記録装置及び番組記録再生装置及び番組記録再生方法
JP5413223B2 (ja) 録音装置およびインデックス情報付与方法
KR20110080712A (ko) 이동통신 단말기의 음성 인식을 통한 동영상 검색 방법 및 그 시스템과 동영상 음성의 텍스트 변환 장치
JP2005345616A (ja) 情報処理装置及び情報処理方法
US20050016364A1 (en) Information playback apparatus, information playback method, and computer readable medium therefor
US9047059B2 (en) Controlling a voice site using non-standard haptic commands
JP2008171173A (ja) 文書検索方法および装置、プログラム
JP2009070222A (ja) 通信装置、そのmmi方法およびプログラム
KR101336256B1 (ko) 음성 기반 멀티미디어 컨텐츠 태깅 방법 및 장치
JP2006074376A (ja) 放送受信機能付き携帯電話装置、プログラム、及び記録媒体
CN1818899A (zh) Mpeg播放器的数据检索方法
CN112236816B (zh) 信息处理装置、信息处理系统以及影像装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121127

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130813

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130926

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131015

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131028

R150 Certificate of patent or registration of utility model

Ref document number: 5413223

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees