JP5146434B2 - 録音再生装置 - Google Patents

録音再生装置 Download PDF

Info

Publication number
JP5146434B2
JP5146434B2 JP2009231407A JP2009231407A JP5146434B2 JP 5146434 B2 JP5146434 B2 JP 5146434B2 JP 2009231407 A JP2009231407 A JP 2009231407A JP 2009231407 A JP2009231407 A JP 2009231407A JP 5146434 B2 JP5146434 B2 JP 5146434B2
Authority
JP
Japan
Prior art keywords
playback
emotion
recording
section
utterance section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009231407A
Other languages
English (en)
Other versions
JP2011082659A (ja
Inventor
秀和 永野
章彦 押之見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nakayo Telecommunications Inc
Original Assignee
Nakayo Telecommunications Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nakayo Telecommunications Inc filed Critical Nakayo Telecommunications Inc
Priority to JP2009231407A priority Critical patent/JP5146434B2/ja
Publication of JP2011082659A publication Critical patent/JP2011082659A/ja
Application granted granted Critical
Publication of JP5146434B2 publication Critical patent/JP5146434B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephone Function (AREA)

Description

本発明は、録音再生機能付き電話装置、ICレコーダ等の録音再生装置に関し、特に録音データの再生技術に関する。
特許文献1には、蓄積された留守録音声メッセージ各々について、感情音声認識技術により発呼者の感情の度合い値を求め、この度合い値に基づいて重要度を判定するとともに、蓄積された留守録音声メッセージ各々を重要度の高い順に再生する留守録電話装置が開示されている。この留守録電話装置によれば、重要度の高い留守録音声メッセージから順番に再生されるため、ユーザは、留守録された重要な要件を効率よく確認できる。
特開2007−49657号公報
ところで、録音再生機能付き電話装置、ICレコーダ等の録音再生装置において、長時間に亘り録音された通話、会議等の音声データから要点を効率よく把握したい場合がある。特許文献1に記載の技術は、この点を何ら考慮していない。
本発明は上記事情に鑑みてなされたものであり、本発明の目的は、録音データから要点を効率よく把握できる技術を提供することにある。
上記課題を解決するために、本発明は、録音データを、発話等の所定単位の区間に分けて認識し、区間ごとに感情音声認識技術により発話者の感情を判定する。そして、区間ごとに、判定された感情に応じて予め設定された再生方法(再生速度、再生音量等)で、録音データを再生する。
例えば、本発明は、発話者の音声の録音および再生を行う録音再生装置であって、
録音データを記憶する録音データ記憶手段と、
前記録音データを、所定単位の区間に分けて認識する区間認識手段と、
前記録音データに感情音声認識処理を施して、前記区間認識手段により認識された区間ごとに、前記発話者の感情を判定する感情判定手段と、
前記区間認識手段により認識された区間ごとに、前記感情判定手段により判定された感情に応じた再生方法に従って前記録音データを再生する再生手段と、を有する。
本発明によれば、区間ごとに、その区間において録音データが示す発話者の感情に応じて録音データの再生方法を変更することができるので、ユーザが要点を効率よく把握できるように録音データを再生することができる。
図1は、本発明の一実施の形態に係るIP電話装置1の概略図である。 図2(A)は、再生ルール記憶部108の登録内容例を模式的に表した図であり、図2(B)は、再生ルールの受付方法の一例を説明する図である。 図3(A)は、感情データ記憶部110の登録内容例を模式的に表した図であり、図3(B)は、発話区間の認識方法を説明するための図であり、図3(C)は、発話区間における発話者の感情判定方法を説明するための図である。 図4は、本発明の一実施の形態に係るIP電話装置1の再生ルール登録処理を説明するためのフロー図である。 図5は、本発明の一実施の形態に係るIP電話装置1の感情データ登録処理を説明するためのフロー図である。 図6は、本発明の一実施の形態に係るIP電話装置1の録音データ再生処理を説明するためのフロー図である。 図7は、感情モードによる再生の効果を説明するための図である。
以下に、本発明の実施の形態について説明する。
図1は、本発明の一実施の形態に係るIP電話装置1の概略図である。
図示するように、IP電話装置1は、マンマシンインターフェース部101と、LANインターフェース部102と、通信制御部103と、呼制御部104と、通話処理部105と、録音データ記憶部106と、録音処理部107と、再生ルール記憶部108と、再生ルール受付部109と、感情データ記憶部110と、発話区間認識部111と、感情判定部112と、再生制御部113と、を有する。
マンマシンインターフェース部101は、ユーザが電話および各種操作を行うためのインターフェースであり、図示していないが、ハンドセット、スピーカ、ダイヤルキー等の操作部、およびLCD、LED等の表示部を備える。
LANインターフェース部102は、LAN(Local Area Network)に接続するためのインターフェースである。
通信制御部103は、LANインターフェース部102を介して、LANに接続された各機器(他のIP電話装置、LANをIP電話網に接続するゲートウェイ等)との通信を制御する。
呼制御部104は、SIP(Session Initiation Protocol)等の所定の呼制御プロトコルに従い、呼制御サーバ経由で通話相手と呼制御メッセージをやり取りすることにより、セッションの確立・解放を実施する。
通話処理部105は、RTP(Realtime Transport Protocol)等の所定の伝送プロトコルに従い、呼制御部104により確立されているセッションを介して通話相手と通話データを送受信して処理する。具体的には、マンマシンインターフェース部101を介してユーザにより音声入力された音声信号を通話データに符号化し、セッションを介して通話相手に送信するとともに、セッションを介して通話相手から通話データを受信して、この通話データを音声信号に復号し、マンマシンインターフェース部101から音声出力する。これにより、通話相手と音声をやり取りする。
録音データ記憶部106には、音声の録音データ1060が記憶される。
録音処理部107は、マンマシンインターフェース部101を介してユーザより受け付けた録音指示に従い、通話処理部105により通話相手とやり取りされている音声の録音データ1060を録音データ記憶部106に記憶する。
再生ルール記憶部108には、発話者の感情ごとに録音データ1060の再生方法が記憶される。図2(A)は、再生ルール記憶部108の登録内容例を模式的に表した図である。
図示するように、再生ルール記憶部108には、発話者の感情ごとにレコード1080が登録されている。レコード1080は、発話者の感情を登録するためのフィールド1081と、録音データ1060の再生方法を登録するためのフィールド1082と、を有する。本実施の形態では、一例として、発話者の感情を、「喜」、「怒」、「哀」、「楽」、「興奮」、および「平常」の六つの状態に分類している。また、再生方法として、「標準再生」、「スキップ再生」、「スピード再生(例えば倍速再生)」、「スロー再生(例えば1/2倍速再生)」、および「前後区間を含めた再生」のいずれかを想定している。ここで、「前後区間を含めた再生」とは、録音データ1060を発話単位で複数の区間(発話区間と呼ぶ)に分けて認識した場合に、再生対象となる発話区間の前後に位置する発話区間も含めて再生することを意味する。
なお、再生方法として、「標準再生」、「スキップ再生」、「スピード再生(例えば倍速再生)」、「スロー再生(例えば1/2倍速再生)」、および「前後区間を含めた再生」としたが、「話速変換再生」が含まれていてもよい。ここで「話速変換再生」とは、音の高さ(基本周波数)、再生時間を変えずに会話速度を遅くしたり、音の高さ(基本周波数)を変えずに再生時間を速く(短く)するといった話速変換技術を利用して再生することを意味する。
再生ルール受付部109は、マンマシンインターフェース部101を介してユーザより感情および再生方法の指定を含む再生ルールを受け付ける。そして、受け付けた再生ルールで指定されている感情をキーにして、再生ルール記憶部108からレコード1080を検索し、検索したレコード1080のフィールド1082に、受け付けた再生ルールで指定されている再生方法を登録する。
なお、本実施の形態では、図2(B)に示すように、あらかじめ定められた対応関係にしたがっていずれかの感情1091に割り当てられた最初の番号(1番目のダイヤル情報)1090、および、あらかじめ定められた対応関係にしたがっていずれかの再生方法1093に割り当てられた2番目の番号(2番目のダイヤル情報)1092からなる2桁のダイヤル情報1094により表わされる再生ルールを受け付ける。
感情データ記憶部110には、録音データ記憶部106に記憶されている録音データ1060各々について、発話区間ごとに、発話区間を特定する情報と、この発話区間における発話者の感情を示す情報とが記憶される。図3(A)は、感情データ記憶部110の登録内容例を模式的に表した図である。
図示するように、感情データ記憶部110には、録音データ記憶部106に記憶されている録音データ1060のファイル名1100ごとにテーブル1101が登録されている。また、テーブル1101には、対象となる録音データ1060の発話区間ごとにレコード1102が時間順に登録されている。レコード1102は、発話区間を識別するための区間IDを登録するためのフィールド1103、発話区間の開始時間を登録するためのフィールド1104と、発話区間の終了時間を登録するためのフィールド1105と、発話区間における発話者の感情を登録するためのフィールド1106と、を有する。
発話区間認識部111は、録音データ記憶部106に記憶された録音データ1060から発話区間を認識する。具体的には、図3(B)に示すように、録音データ1060から所定時間(例えば2秒)以上続く無音区間1061を検出し、この無音区間1061の開始時間1063で発話区間1062が終了し、終了時間1064で次の発話区間1062が開始するものとして、録音データ1060から発話区間1062を認識する。
感情判定部112は、録音データ記憶部106に記憶された録音データ1060に対して、発話区間認識部111により認識された発話区間1062ごとに発話者の感情を判定する。そして、この録音データ1060に対するテーブル1101を作成し、感情データ記憶部110に記憶する。
具体的には、感情判定部112は、録音データ記憶部106に記憶された録音データ1060に対して感情音声認識処理を施し、各サンプル点について、「喜」、「怒」、「哀」、「楽」、「興奮」、および「平常」のそれぞれの感情の度合い値を算出する。そして、図3(C)に示すように、発話区間1062ごとに、「喜」、「怒」、「哀」、「楽」、「興奮」、および「平常」それぞれの感情1121について、発話区間1062内の各サンプル点における感情の度合い値の最大値、合計値、あるいは平均値を算出し、これを評価値1122とする。そして、「喜」、「怒」、「哀」、「楽」、「興奮」、および「平常」のうち、最も大きい評価値1122を持つ感情1121を、その発話区間1062における発話者の感情と判定する。
なお、感情音声認識処理には、特開2002−91482号公報(特許第3676969号)に記載の感情音声認識技術を含む様々な既存の感情音声認識技術を利用できる。
再生制御部113は、録音データ記憶部106に記憶された録音データ1060を、この録音データ1060のファイル名1100に対応付けられて感情データ記憶部110に記憶されたテーブル1101、および再生ルール記憶部108に記憶された再生ルールに従って、発話区間1062ごとにその発話区間1062における発話者の感情に応じた再生方法で再生し、再生信号をマンマシンインターフェース部101から出力する。
図4は、本発明の一実施の形態に係るIP電話装置1の再生ルール登録処理を説明するためのフロー図である。このフローは、マンマシンインターフェース部101がユーザから再生ルールの登録指示を受け付けることにより開始される。
まず、再生ルール受付部109は、マンマシンインターフェース部101を介してユーザより2桁のダイヤル情報からなる再生ルールを受け付ける(S101)。
つぎに、再生ルール受付部109は、受け付けた再生ルールの1番目のダイヤル情報1090がいずれかの感情1091に割り当てられているか否かを判断する(S102)。1番目のダイヤル情報1090がいずれの感情1091にも割り当てられていない場合は(S102でNO)、マンマシンインターフェース部101を介してユーザに再生ルール再入力を促す等の所定の再入力要求処理を行い(S107)、S101に戻る。
一方、1番目のダイヤル情報1090がいずれかの感情1091に割り当てられている場合(S102でYES)、再生ルール受付部109は、1番目のダイヤル情報1090に割り当てられている感情1091を特定する(S103)。
それから、再生ルール受付部109は、受け付けた再生ルールの2番目のダイヤル情報1092がいずれかの再生方法1093に割り当てられているか否かをさらに判断する(S104)。2番目のダイヤル情報1092がいずれの再生方法1093にも割り当てられていない場合は(S104でNO)、マンマシンインターフェース部101を介してユーザに再生ルール再入力を促す等の所定の再入力要求処理を行い(S107)、S101に戻る。
一方、2番目のダイヤル情報1092がいずれかの再生方法1093に割り当てられている場合(S104でYES)、再生ルール受付部109は、2番目のダイヤル情報1092に割り当てられている再生方法1093を特定する(S105)。
以上のようにして、1番目のダイヤル情報1090に割り当てられている感情1091、および2番目のダイヤル情報1092に割り当てられている再生方法1093を特定したならば、再生ルール受付部109は、特定した感情1091をキーにして再生ルール記憶部108からレコード1080を検索する。そして、検索したレコード1080のフィールド1082の登録内容を、特定した再生方法1093に更新する(S106)。
図5は、本発明の一実施の形態に係るIP電話装置1の感情データ登録処理を説明するためのフロー図である。このフローは、録音データ記憶部106に録音データ1060が記憶されることにより開始される。
まず、感情判定部112は、録音データ記憶部106に記憶された録音データ1060のファイル名1100が登録されたテーブル1101を生成し、このテーブル1101を感情データ記憶部110に記憶する(S121)。また、感情判定部112は、発話区間認識部111に発話区間認識処理の開始を指示する。これを受けて、発話区間認識部111は、カウンタ値nを初期値「1」に設定する(S122)。
つぎに、発話区間認識部111は、録音データ1060における音の有無を検出することにより、n番目の発話区間1062の認識を開始する(S123)。そして、図3(B)を用いて説明したように、所定時間以上続くn番目の無音区間1061あるいは録音データ1060の終了を検出したならば(S124でYES)、n番目の発話区間1062を認識し、n番目の発話区間1062の開始時間1064および終了時間1063を感情判定部112に通知する(S125)。ここで、録音データ1060において最初に音を検出した時間を最初(n=1)の発話区間1062の開始時間1064とし、その後、所定時間以上続くn番目の無音区間1061を検出した場合、この無音区間1061の開始時間1063をn番目の発話区間1062の終了時間1063、終了時間1064をn+1番目の発話区間1062の開始時間1064とする。また、録音データ1060の終了を検出した場合、この録音データ1060において最後に音を検出した時間をn番目の発話区間1062の終了時間1063とする。
つぎに、感情判定部112は、発話区間認識部111からn番目の発話区間1062の開始時間1064および終了時間1063を受け取ると、この録音データ1060のn番目の発話区間1062に対して感情音声認識処理を実施する(S126)。そして、図3(C)を用いて説明したように、「喜」、「怒」、「哀」、「楽」、「興奮」、および「平常」それぞれの感情1121の評価値(例えば、度合い値の最大値、合計値、あるいは平均値)1122に基づいて、n番目の発話区間1062における発話者の感情を判定する(S127)。
それから、感情判定部112は、S121で感情データ記憶部110に登録したテーブル1101に新たなレコード1102を追加し、このレコード1102のフィールド1103にn番目の発話区間1062を識別するための区間IDを、フィールド1104にn番目の発話区間1062の開始時間1064を、フィールド1105にn番目の発話区間1062の終了時間1063を、そして、フィールド1106にn番目の発話区間1062における発話者の感情を登録する(S128)。
つぎに、発話区間認識部111は、S124で録音データ1060の終了を検出したならば(S129でYES)、このフローを終了する。一方、S124で録音データ1060の終了を検出していないならば(S129でNO)、カウンタ値nを一つインクリメントして(S130)、S123に戻る。
図6は、本発明の一実施の形態に係るIP電話装置1の録音データ再生処理を説明するためのフロー図である。このフローは、マンマシンインターフェース部101がユーザから録音データ1060のファイル名の指定を伴う録音データ再生指示を受け付けることにより開始される。
まず、再生制御部113は、マンマシンインターフェース部101を介してユーザから再生モードの指定を受け付ける(S141)。受け付けた再生モードが「通常モード」である場合(S142で「通常」)、再生制御部113は、ユーザにより指定されたファイル名の録音データ1060を録音データ記憶部106から読み出して、この録音データ1060を標準の再生速度で再生し、再生信号をマンマシンインターフェース部101から出力する(S143)。録音データ1060の再生完了後、このフローを終了する。
一方、受け付けた再生モードが「感情モード」である場合(S142で「感情」)、再生制御部113は、ユーザにより指定されたファイル名と一致するファイル名1100に対応するテーブル1101を感情データ記憶部110から読み出すとともに(S144)、カウンタ値nを初期値「1」にセットする(S145)。
つぎに、再生制御部113は、テーブル1101からn番目のレコード1102を読み出して、このレコード1102のフィールド1104〜1106に登録されているn番目の発話区間1062の開始時間1064、終了時間1063、および発話者の感情を特定する(S146)。
また、再生制御部113は、S146で特定した発話者の感情をキーにして、再生ルール記憶部108からレコード1080を検索し、このレコード1080のフィールド1082に登録されている再生方法を特定する(S147)。
さらに、このとき特定したn番目の発話区間1062の再生方法が「前後区間を含めた再生」であるか否かを判断し(S148)、「前後区間を含めた再生」であれば(S148でYES)、さらに、n番目の発話区間1062が最初の発話区間(すなわちn=1)、または、前発話区間(n−1番目の発話区間)が再生済みのいずれかに該当するかを判断する(S149)。
その結果、n番目の発話区間1062が最初の発話区間(すなわちn=1)、または、前発話区間(n−1番目の発話区間)1062が再生済みのいずれかであれば(S149でYES)、再生制御部113は、S146で特定した開始時間1064および終了時間1063に基づいて、ユーザにより指定されたファイル名で録音データ記憶部106に記憶されている録音データ1060から、n番目の発話区間1062に属する録音データを読み出し、この録音データを通常再生する。そして、n番目の発話区間1062の再生信号のみをマンマシンインターフェース部101から出力する(S151)。
n番目の発話区間1062が最初の発話区間(すなわちn=1)、および、前発話区間(n−1番目の発話区間)が再生済みのいずれの場合にも該当しなければ(S149でNO)、再生制御部113は、前回(n−1回目)のS146で特定した開始時間1064および終了時間1063、および、今回(n回目)のS146で特定した開始時間1064および終了時間1063に基づいて、ユーザにより指定されたファイル名で録音データ記憶部106に記憶された録音データ1060から、n−1番目の発話区間1062に属する録音データ、およびn番目の発話区間1062に属する録音データを読み出し、順次、これらの録音データを通常再生する。これにより、n−1番目の発話区間1062の再生信号につづき、n番目の発話区間162の再生信号を、マンマシンインターフェース部101から出力する(S150、S151)。
一方、S147で特定したn番目の発話区間1062の再生方法が「前後区間を含めた再生」でなければ(S148でNO)、再生制御部113は、前回のS147(n−1回目のS147)で特定したn−1番目の発話区間1062の再生方法が「前後区間を含めた再生」であるか否かを判断する(S152)。
その結果、n−1番目の発話区間1062の再生方法が「前後区間を含めた再生」であれば(S152でYES)、再生制御部113は、今回(n回目)のS146で特定した開始時間1064および終了時間1063に基づいて、ユーザにより指定されたファイル名で録音データ記憶部106に記憶されている録音データ1060から、n番目の発話区間1062に属する録音データを読み出して、標準の再生速度で再生し、この録音データの再生信号をマンマシンインターフェース部101から出力する(S151)。
n−1番目の発話区間1062の再生方法が「前後区間を含めた再生」でなければ(S152でNO)、再生制御部113は、今回(n回目)のS146で特定した開始時間1064および終了時間1063に基づいて、ユーザにより指定されたファイル名で録音データ記憶部106に記憶されている録音データ1060から、n番目の発話区間1062に属する録音データを読み出して、この録音データを、S147で特定した再生方法に従い再生する。そして、再生信号をマンマシンインターフェース部101から出力する(S153)。
つぎに、再生制御部113は、n番目のレコード1102がテーブル1101に登録されている最後のレコード1102か否か、つまりn番目の発話区間1062が最終区間であるか否かを判断する(S154)。n番目の発話区間1062が最終区間であるならば(S154でYES)、このフローを終了する。一方、n番目の発話区間1062が最終区間でないならば(S154でNO)、カウンタ値nを一つインクリメントして(S155)、S146に戻る。
以上、本発明の一実施の形態を説明した。
本実施の形態のIP電話装置1は、録音データ1060を発話区間1062に分けて認識し、発話区間1062ごとに、感情音声認識技術により発話者の感情を判定する。そして、発話区間1062ごとに、判定された感情に応じて予め設定された再生方法で、録音データ1060を再生する。したがって、本実施の形態によれば、発話区間1062ごとに、その発話区間1062に含まれる録音データ1060が示す発話者の感情に応じて録音データ1060の再生方法を変更することができるので、ユーザが要点を効率よく把握できるように録音データ1060を再生することができる。
例えば、特定の感情が付与された発話区間1062のみを抽出して再生し、その他の感情が付与された発話区間1062をスキップすることで、録音内容の要点を特定でき、会話の内容を効率よく把握することが可能となる。また、発話者が興奮あるいは怒った状態などで早口で録音されている場合などに、「興奮」あるいは「怒」の感情が付与された発話区間1062をスロー再生することで、何度も聞き直さなくても会話の内容を把握することが可能となる。
また、本実施の形態において、再生ルール受付部109は、マンマシンインターフェース部101を介してユーザから感情および再生方法の指定を伴う再生ルールを受け付け、この再生ルールを再生ルール記憶部108に記憶し、再生制御部113は、発話区間1062ごとに、判定された感情に対応付けられて再生ルール記憶部108に記憶されている再生方法に従って録音データを再生する。したがって、本実施の形態によれば、例えば「喜」、「怒」、「哀」、「楽」、「興奮」、および「平常」といった感情のそれぞれについて、ユーザが再生方法を自由に設定することができる。
このため、図7に示すように、感情「怒」、「興奮」に再生方法「スロー再生」、感情「平常」に再生方法「標準再生」、これら以外の感情に再生方法「スピード再生」を対応させた感情モード1131を指定して録音データ1060を再生した場合(パターンAの場合)、録音データ1060を通常モード1130で再生した場合に比べて再生時間を大幅に延長させることなく、ユーザが重要と考える感情「怒」、「興奮」の発話区間1062をゆっくり再生できるので、話の内容を聞き逃さず、要点の確認を効率よく確実に行うことができる。
また、感情「怒」に再生方法「前後区間を含めた再生」、感情「平常」、「楽」に「スキップ再生」、これら以外の感情に「前後区間を含めた再生」以外の任意の再生方法を対応させた感情モード1132を指定して録音データ1060を再生した場合(パターンBの場合)、録音データ1060を通常モード1130で再生した場合に比べて再生時間を短縮化しつつも、ユーザが重要と考える感情「怒」の発話区間1062を、その発話区間1062の前後の発話区間1062を含めて再生できるので、要点をより短時間で効率よく確認することができる。
なお、本発明は上記の実施の形態に限定されるものではなく、その要旨の範囲内で数々の変形が可能である。
例えば、上記の実施の形態では、録音データ1060から発話区間1062を認識して、発話区間1062ごとに発話者の感情を判定しているが、本発明はこれに限定されない。例えば、録音データ1060に音声認識処理を施して、文を構成する文字列単位で区間を認識し、認識した区間ごとに発話者の感情を判定してもよい。
また、上記の実施の形態において、再生方法の一つに、対象となる発話区間1062の所定時間前から所定時間後までを再生する方法を加えてもよい。また、再生方法として、再生速度を制御する再生方法に加え、大音量、小音量、消音等の再生音量を制御する再生方法を加えてもよい。あるいは、再生速度の制御と再生音量の制御とを組み合わせた再生方法を加えてもかまわない。さらに、スロー再生およびスピード再生される発話者の声がより自然に再生されるように、再生速度の制御と音程の制御とが組み合わせた再生方法を加えてもよい。また、ユーザが要点をメモ等しやすいように、録音データ1062の再生中に定期的に無音期間を挿入するようにしてもよい。
また、上記においては、各発話区間1062に属する録音データの再生方法として、その発話区間1062における発話者の感情により定まる再生方法を選択しているが、かならずしも、このようにする必要はない。例えば、再生方法「前後区間を含めた再生」が設定されている所定の感情(例えば、ユーザが重要と考える「怒」)の発話区間1062が録音データ1060に含まれている場合には、その他の感情についてどのような再生方法が設定されているかとは無関係に、再生方法「前後区間を含めた再生」が設定されている感情の発話区間1062およびその前後の発話区間1062のみが抽出、再生されるようにしてもよい。このようにする場合には、例えば、図6のS144において、再生制御部113が、感情データ記憶部110から読み出したテーブル1101に、再生方法「前後区間を含めた再生」に対応する所定の感情(例えば「怒」)がフィールド1106に格納されたレコード1102が登録されているか否かをチェックし、そのようなレコード1102が登録されているか否かに応じて異なる処理が実行されるようにすればよい。
具体的には、そのようなレコード1102が登録されていない場合(再生方法「前後区間を含めた再生」に対応する感情の発話区間1062が録音データ106に含まれていない場合)には、録音データ106に含まれるすべての発音区間1062について上述のS146、S147およびS153を順次実行するループ処理が実行され、そのようなレコード1102が登録されている場合(再生方法「前後区間を含めた再生」に対応する感情の発話区間1062が少なくとも1つ録音データ106に含まれている場合)には、録音データ106に含まれるすべての発音区間1062について上述のS146〜S154のループ処理(ただし、S152の判断処理でNOの場合、S153を実行せずにS154に進む)が実行されるようにすればよい。このようにすれば、ユーザが重要と考える感情「怒」の発話区間1062、および、その発話区間1062の前後の発話区間1062のみを再生できるので、要点をより短時間で効率よく確認することができる。
また、上記の実施の形態において、図1に示すIP電話装置1の機能構成は、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)などの集積ロジックICによりハード的に実現されるものでもよいし、あるいはDSP(Digital Signal Processor)などの計算機によりソフトウエア的に実現されるものでもよい。または、CPU、メモリ、HDD、DVD−ROM等の補助記憶装置、およびNIC(Network Interface Card)、モデム等の通信インターフェースを備えたPC(Personal Computer)等の汎用コンピュータにおいて、CPUが所定のプログラムを補助記憶装置からメモリ上にロードして実行することで実現されるものでもよい。
また、上記の実施の形態では、本発明をIP電話装置1に適用した場合を例にとり説明したが、本発明はこれに限定されない。本発明は、録音再生機能を備えたアナログ電話機および携帯電話機、ICレコーダ等の様々な録音再生装置に適用できる。
1:IP電話装置、101:マンマシンインターフェース部、102:LANインターフェース部、103:通信制御部、104:呼制御部、105:通話処理部、106:録音データ記憶部、107:録音処理部、108:再生ルール記憶部、109:再生ルール受付部、110:感情データ記憶部、111:発話区間認識部、112:感情判定部、113:再生制御部

Claims (3)

  1. 発話者の音声の録音および再生を行う録音再生装置であって、
    録音データを記憶する録音データ記憶手段と、
    前記録音データを、所定単位の区間に分けて認識する区間認識手段と、
    前記録音データに感情音声認識処理を施して、前記区間認識手段により認識された区間ごとに、前記発話者の感情を判定する感情判定手段と、
    前記区間認識手段により認識された区間ごとに、前記感情判定手段により判定された感情に応じた再生方法に従って前記録音データを再生する再生手段と、を有する
    ことを特徴とする録音再生装置。
  2. 請求項1に記載の録音再生装置であって、
    感情の指定を再生方法の指定とともに受け付ける受付手段と、
    前記受付手段により受け付けた感情の指定を、当該感情の指定とともに受け付けた再生方法の指定に対応付けて記憶する再生方法記憶手段と、をさらに有し、
    前記再生手段は、
    前記区間認識手段により認識された区間ごとに、前記感情判定手段により判定された感情に対応付けられて前記再生方法記憶手段に記憶されている再生方法に従って前記録音データを再生する
    ことを特徴とする録音再生装置。
  3. 請求項1または2に記載の録音再生装置であって、
    前記再生方法は、標準再生、スロー再生、スピード再生、スキップ再生、および対象区間の前後区間を含めた再生のいずれかである
    ことを特徴とする録音再生装置。
JP2009231407A 2009-10-05 2009-10-05 録音再生装置 Active JP5146434B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009231407A JP5146434B2 (ja) 2009-10-05 2009-10-05 録音再生装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009231407A JP5146434B2 (ja) 2009-10-05 2009-10-05 録音再生装置

Publications (2)

Publication Number Publication Date
JP2011082659A JP2011082659A (ja) 2011-04-21
JP5146434B2 true JP5146434B2 (ja) 2013-02-20

Family

ID=44076288

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009231407A Active JP5146434B2 (ja) 2009-10-05 2009-10-05 録音再生装置

Country Status (1)

Country Link
JP (1) JP5146434B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2014069076A1 (ja) * 2012-10-31 2016-09-08 日本電気株式会社 会話分析装置及び会話分析方法
JP6277958B2 (ja) * 2012-10-31 2018-02-14 日本電気株式会社 再生装置、設定装置、再生方法およびプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11143483A (ja) * 1997-08-15 1999-05-28 Hiroshi Kurita 音声発生システム
JP3676969B2 (ja) * 2000-09-13 2005-07-27 株式会社エイ・ジー・アイ 感情検出方法及び感情検出装置ならびに記録媒体
JP2005039501A (ja) * 2003-07-14 2005-02-10 Nec Corp 携帯電話録音サービスシステム、方法およびプログラム
JP2007049657A (ja) * 2005-08-05 2007-02-22 Seiya Takada 留守番電話装置

Also Published As

Publication number Publication date
JP2011082659A (ja) 2011-04-21

Similar Documents

Publication Publication Date Title
US6697796B2 (en) Voice clip search
US20120101815A1 (en) Query by humming for ringtone search and download
JPWO2008029889A1 (ja) 情報処理端末、音楽情報生成方法、およびプログラム
JP2007049657A (ja) 留守番電話装置
JP3940723B2 (ja) 対話情報分析装置
JP5146434B2 (ja) 録音再生装置
JP4787048B2 (ja) 携帯電話機
JP4622728B2 (ja) 音声再生装置および音声再生処理プログラム
KR20050038714A (ko) 무선인터넷을 이용한 자작 음악파일 생성 및 다운로딩서비스 시스템 및 서비스 방법
JP2009005064A (ja) Ip電話端末および電話会議システム
JP5223843B2 (ja) 情報処理装置およびプログラム
JP3927155B2 (ja) 対話記録装置および対話記録プログラム
JP2005221565A (ja) 音声データファイル格納方法および録音処理装置
JP2007251581A (ja) 音声送信端末および音声再生端末
JP4353084B2 (ja) 映像再生方法及び装置及びプログラム
JP6587459B2 (ja) カラオケイントロにおける曲紹介システム
JP2005210497A (ja) 携帯情報端末
JP4973431B2 (ja) 音声再生プログラム及び音声再生装置
JP2007049257A (ja) 電話端末およびサーバ装置
JP2009094813A (ja) 通話録音装置
JP6574697B2 (ja) カラオケシステム
JP2000214878A (ja) 音声情報処理装置
KR100576510B1 (ko) 네트워크 기반의 사용자 노래를 이용한 이동통신 단말기의 벨소리 설정시스템 및 방법
JP2006178648A (ja) 音声データからのキーワード抽出のための装置,方法,プログラム及び記録媒体
JP2010146157A (ja) 音情報変換再生システムおよび音情報変換再生システムの制御方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120709

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121009

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121030

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121112

R150 Certificate of patent or registration of utility model

Ref document number: 5146434

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151207

Year of fee payment: 3

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250