JP2007298876A - Voice data recording and reproducing apparatus - Google Patents
Voice data recording and reproducing apparatus Download PDFInfo
- Publication number
- JP2007298876A JP2007298876A JP2006128514A JP2006128514A JP2007298876A JP 2007298876 A JP2007298876 A JP 2007298876A JP 2006128514 A JP2006128514 A JP 2006128514A JP 2006128514 A JP2006128514 A JP 2006128514A JP 2007298876 A JP2007298876 A JP 2007298876A
- Authority
- JP
- Japan
- Prior art keywords
- data
- voice
- speaker
- recording
- voice data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
この発明は、会議音声等の音声を記録して利用する装置に関するものである。 The present invention relates to an apparatus for recording and using audio such as conference audio.
従来から会議において、各話者の発言を録音した議事録を作成することが一般的である。このような議事録を後から確認するとき、全ての発言を聴き返すことは時間がかかるため、重要な部分だけ(所謂ダイジェスト)を聴きたい場合が多い。 Conventionally, in a conference, it is common to create a minutes that records the speech of each speaker. When confirming such minutes, it takes time to listen back to all the statements, so it is often desirable to listen to only the important part (so-called digest).
そこで、録音済の音声データから各発話者を識別し、音声認識処理でテキストデータ化する装置(例えば特許文献1参照)、このテキストから要約を作成する装置(例えば、特許文献2、特許文献3参照)が提案されている。
Therefore, a device that identifies each speaker from recorded voice data and converts it into text data by voice recognition processing (see, for example, Patent Document 1), and a device that creates a summary from this text (for example,
また、話者、話題毎に音声データを分割し、これらの話者、話題をキー検索として検索処理を行う記録情報処理装置が提案されている(例えば特許文献4参照)。この記録情報処理装置によれば、特定の話者の発言だけを聴くことができる。 In addition, a recording information processing apparatus that divides voice data for each speaker and topic and performs a search process using these speakers and topics as a key search has been proposed (for example, see Patent Document 4). According to this recorded information processing apparatus, only a specific speaker's speech can be heard.
また、発言内容を聴きとりできなかった場合に、指定時間だけ巻き戻して、先ほどよりも遅い速度で再生する情報再生装置(例えば特許文献5参照)が提案されている。
特許文献1〜3に記載の装置は、音声認識処理を行い、テキストを抽出するが、このような処理は、高度の音声認識技術が要求されていた。
特許文献4に記載の装置は、特定の話者の発言のみ聴く構成であるため、前後の他者の発言を聴くことができず、会議全体の概要を把握しにくかった。
特許文献5に記載の装置は、低速再生したい場合は、ユーザが手動で指定しなければならなかった。
The devices described in
Since the apparatus described in Patent Document 4 is configured to listen only to the speech of a specific speaker, it is difficult to hear the speech of others before and after, and it is difficult to grasp the outline of the entire conference.
The device described in Patent Document 5 has to be manually designated by the user when low speed reproduction is desired.
本発明は、上記問題点に鑑みて、複数の話者の会話が録音されている音声データから、特定の話者の発言を効率良く聴くことができ、その発言に至るまでの他者の発言内容も把握することができる装置を提供することを目的とする。 In view of the above problems, the present invention can efficiently listen to a specific speaker's remarks from voice data in which conversations of a plurality of speakers are recorded, and the remarks of others up to that remark. An object of the present invention is to provide an apparatus capable of grasping the contents.
この発明の音声データ記録再生装置は、複数の話者の発音を録音した音声データ、および特定の話者の音声特徴量を記録する記録手段と、音声特徴量を抽出する音声特徴量抽出手段と、前記特定の話者の音声特徴量と、前記音声特徴量抽出手段が抽出した音声特徴量と、を比較し、前記音声データのうち、特定の話者の音声データ記録区間を抽出する話者抽出手段と、前記特定の話者の音声データ記録区間以外の区間の音声データを、時間軸に圧縮する処理を行う話速変換手段と、圧縮済みの区間を含んだ音声データを外部に出力する出力手段と、を備えたことを特徴とする。 An audio data recording / reproducing apparatus according to the present invention includes audio recording data recording pronunciations of a plurality of speakers and audio features of a specific speaker, audio feature extraction means for extracting audio features, The speaker that compares the voice feature amount of the specific speaker with the voice feature amount extracted by the voice feature amount extraction unit, and extracts the voice data recording section of the specific speaker from the voice data Extraction means, speech speed conversion means for performing processing for compressing voice data in a section other than the voice data recording section of the specific speaker on the time axis, and outputting voice data including the compressed section to the outside And an output means.
この発明では、特定の話者の音声特徴量(フォルマント等)を記録手段に記録しておく。音声特徴量抽出手段は、記録されている音声データから音声特徴量を抽出する。話者抽出手段は、予め記録されている特定の話者の音声特徴量と、抽出した音声特徴量を比較し、特定の話者の発話区間を抽出する。この抽出した特定の話者の発話区間以外の区間について、音声データを時間軸に圧縮して話速変換(高速化)を行う。 In the present invention, the voice feature (formant, etc.) of a specific speaker is recorded in the recording means. The voice feature amount extraction unit extracts a voice feature amount from the recorded voice data. The speaker extraction unit compares the voice feature amount of a specific speaker recorded in advance with the extracted voice feature amount, and extracts a speech section of the specific speaker. For the sections other than the extracted speech section of the specific speaker, the speech data is compressed on the time axis to perform speech speed conversion (speeding up).
また、この発明は、前記話速変換手段は、前記特定の話者の音声データ記録区間以外の区間の音声データを、前記特定の話者の音声データ記録区間に近い区間ほど低い圧縮率で圧縮することを特徴とする。 Further, according to the present invention, the speech speed converting means compresses voice data in a section other than the voice data recording section of the specific speaker at a lower compression ratio in a section closer to the voice data recording section of the specific speaker. It is characterized by doing.
この発明では、話速変換手段は、特定の話者の発話区間に近いほど圧縮率を低くして話速変換する。これにより、特定の話者がその発言に至るまでの、他者の発言内容をより正確に把握することができる。 In the present invention, the speech speed conversion means converts the speech speed by lowering the compression rate as it is closer to the utterance section of the specific speaker. Thereby, it is possible to grasp the content of another person's utterance more accurately until the specific speaker reaches the utterance.
また、この発明は、前記話速変換手段は、前記特定の話者の音声データ記録区間を、時間軸に伸長する処理を行うとを特徴とする。 In addition, the present invention is characterized in that the speech speed conversion means performs a process of extending the voice data recording section of the specific speaker along the time axis.
この発明では、抽出した特定話者の発話区間について、音声データを時間軸に伸長して話速変換(低速化)を行う。特定話者の音声がゆっくりと再生されるため、より特定話者の発言を理解し易くなる。 In the present invention, speech speed conversion (slowering) is performed by expanding the voice data on the time axis for the extracted speech section of the specific speaker. Since the voice of the specific speaker is played back slowly, it becomes easier to understand the speech of the specific speaker.
また、この発明は、音声データと当該音声データの話者を識別する話者識別データとを経時的に取得する前記データ取得手段を備え、前記記録手段は、前記音声データ、前記話者識別データ、および前記特定の話者の音声特徴量を記録し、前記話者抽出手段は、前記話者識別データ、または音声特徴量の比較結果、の少なくともいずれか一方に基づいて前記特定の話者の音声データ記録区間を抽出することを特徴とする。 The present invention further comprises the data acquisition means for acquiring voice data and speaker identification data for identifying a speaker of the voice data over time, and the recording means includes the voice data and the speaker identification data. And the voice feature amount of the specific speaker is recorded, and the speaker extracting means is configured to record the voice of the specific speaker based on at least one of the speaker identification data and the voice feature amount comparison result. A voice data recording section is extracted.
この発明では、データ取得手段で音声データと話者識別データとを経時的に取得し、記録手段に記録する。話者抽出手段は、話者識別データから、特定の話者の発話区間を抽出する。これにより、特定の話者の発話区間をさらに精度良く抽出することができる
また、この発明は、マイクアレイを備えた放収音装置に接続される請求項4に記載の音声データ記録再生装置であって、前記放収音装置は、前記マイクアレイの各マイクの収音音声信号に基づいて、それぞれに異なる方位に強い指向性を有する複数の収音ビーム信号を形成し、該複数の収音ビーム信号を比較して、最も信号強度の強い収音ビーム信号を選択するとともに、選択された収音ビーム信号に対応する方位を検出して、前記選択された収音ビーム信号を音声データとし、前記検出した方位を話者識別データとして出力することを特徴とする。
In the present invention, voice data and speaker identification data are acquired over time by the data acquisition means and recorded in the recording means. The speaker extracting means extracts the utterance section of a specific speaker from the speaker identification data. This makes it possible to more accurately extract the utterance section of a specific speaker. The present invention is an audio data recording / reproducing apparatus according to claim 4, which is connected to a sound emitting and collecting apparatus including a microphone array. The sound emission and collection device forms a plurality of sound collection beam signals having strong directivities in different directions based on the sound collection sound signals of the microphones of the microphone array, and the plurality of sound collection devices. Compare the beam signals, select the sound collecting beam signal with the strongest signal intensity, detect the direction corresponding to the selected sound collecting beam signal, the selected sound collecting beam signal as audio data, The detected direction is output as speaker identification data.
この発明では、音声データ記録再生装置は、放収音装置に接続されている。この放収音装置は、マイクアレイの各マイクの収音音声信号から複数の収音ビーム信号を形成して、最も信号強度の高い収音ビーム信号を選択するとともに、当該収音ビーム信号に対応する方位を検出する。そして、放収音装置は、選択した収音ビーム信号を音声データとし、検出方位を話者識別データとして出力する。 In the present invention, the audio data recording / reproducing apparatus is connected to the sound emitting and collecting apparatus. This sound emission and collection device forms multiple sound collection beam signals from the sound collection sound signals of each microphone in the microphone array, selects the sound collection beam signal with the highest signal intensity, and supports the sound collection beam signals Detecting the direction to perform. The sound emitting and collecting apparatus outputs the selected sound collecting beam signal as voice data and outputs the detected direction as speaker identification data.
この発明によれば、予め記録しておいた特定の話者の音声特徴量と、音声データから抽出した音声特徴量を比較して、特定の話者の発話区間を抽出し、この発話区間以外の区間を話速変換(高速化)したことで、音声認識(テキスト抽出)等の高度な処理は行う必要なく、特定の話者の発言を聴きながら、その発言に至るまでの他者の発言内容も把握することができる。また、特定の話者の発話区間をユーザが手動で指定する必要もなくなる。 According to the present invention, the speech feature amount of a specific speaker recorded in advance and the speech feature amount extracted from the speech data are compared to extract the speech segment of the specific speaker. The speech rate conversion (speeding up) of this section makes it unnecessary to perform advanced processing such as speech recognition (text extraction), while listening to the speech of a specific speaker, The contents can also be grasped. Further, it is not necessary for the user to manually specify the utterance section of a specific speaker.
図面を参照して、本発明の実施形態である議事録記録、再生システムについて説明する。
図1は、本実施形態の議事録記録、再生システムの構成を示す図である。この議事録記録、再生システムは、ネットワーク100に接続された音声会議装置111、音声会議装置112、録音サーバ101、およびパソコン102を備えている。
With reference to the drawings, a minutes recording and reproducing system according to an embodiment of the present invention will be described.
FIG. 1 is a diagram showing a configuration of a minutes recording / reproducing system according to the present embodiment. The minutes recording / reproducing system includes an
音声会議装置111、音声会議装置112は、それぞれ離れた地点a、地点bにそれぞれ配置されている。地点aには、音声会議装置111が配置されており、該音声会議装置111を囲むように話者A〜Gの7人が音声会議装置111に対してそれぞれ方位Dir11〜Dir16,Dir18で在席している。地点bには、音声会議装置112が配置されており、該音声会議装置112を囲むように会議者H〜Lの5人が音声会議装置112に対してそれぞれ方位Dir21,Dir22,Dir24,Dir26,Dir28で在席している。
The
図2は本実施形態の音声会議装置111の主要構成を示すブロック図である。なお、音声会議装置112は、音声会議装置111と同一構成であり、その説明を省略する。
音声会議装置111は、制御部11、入出力I/F12、D/Aコンバータ14、放音アンプ15、スピーカSP1、マイクMIC101、収音アンプ16、A/Dコンバータ17、エコーキャンセル回路20、操作部31、表示部32を備えている。
FIG. 2 is a block diagram showing the main configuration of the
The
制御部11は、音声会議装置111を統括的に制御する。入出力I/F12は、ネットワーク100に接続され、ネットワーク100を介して入力された相手装置からの音声データを、ネットワーク形式のデータから一般的な音声信号に変換して、エコーキャンセル回路20を介してD/Aコンバータ14に出力する。
The
D/Aコンバータ14はディジタル形式の放音音声信号をアナログ形式に変換し、放音アンプ15は放音音声信号を増幅してスピーカSP1に与え、スピーカSP1は、放音音声信号を音声変換して放音する。これにより、自装置の会議者に、ネットワークで接続された相手先装置の会議者の音声を放音する。
The D /
マイクMIC101は、自装置の会議者の発話音を含む周囲(方位Dir11〜方位Dir18)の音を収音して電気信号に変換し、収音音声信号を生成する。収音アンプ16は収音音声信号を増幅し、A/Dコンバータ17はアナログ形式の収音音声信号をディジタル形式に変換する。
The microphone MIC101 picks up surrounding sound (direction Dir11 to direction Dir18) including the utterance sound of the conference person of its own device, converts it into an electric signal, and generates a collected sound signal. The
エコーキャンセル回路20は、適応型フィルタ21で入力音声信号に基づいて擬似回帰音信号を生成して、ポストプロセッサ22で収音音声信号から擬似回帰音信号を減算する。これにより、スピーカSPからマイクMICへの回り込み音を抑圧する。入出力I/F12は、エコーキャンセル回路20からの収音音声信号をネットワーク形式で所定データ長からなる音声データに変換し、制御部11から得られる収音時間データを添付して、ネットワーク100に出力する。
The
このような構成により、ネットワーク100に接続された音声会議装置111、112で多地点会議を行うことができる。
With such a configuration, the multipoint conference can be performed by the
図3は、録音サーバ101の構成を示すブロック図である。
録音サーバ101は、制御部1、特徴データ抽出部2、記録部3、ネットワークI/F4を備えている。録音サーバ101は、音声会議装置111、112のいずれかと同じ場所に配置しても、これらとは全く異なる場所に配置してもよい。
FIG. 3 is a block diagram showing the configuration of the
The
制御部1は、ネットワークI/F4に対するネットワーク通信制御や、記録部3に対する記録制御等の録音サーバ101全体制御を行う。
特徴データ抽出部2は、音声データから各会議参加者の音声特徴量を抽出する。音声特徴量は、典型的には各話者のフォルマント、ピッチ等を表し、音声データをフーリエ変換した周波数スペクトル(パワースペクトル)、およびこのパワースペクトルを対数変換後に逆フーリエ変換したケプストラムから抽出する。特徴データ抽出部2は、会議に先立ち、各話者の音声特徴量を抽出し、各話者の音声特徴量(特徴データ)として、記録部3に記録しておく。各話者の識別情報(すなわち各特徴データがどの話者のものであるか)は、会議参加者(議長)が予め登録する。例えば、話者Aの音声特徴量を記録部3に登録するとき、議長は、話者Aに発言してもらい、音声会議装置111の操作部31を用いて話者Aの情報(個人名等)を記録部3に記録する。なお、本実施形態の議事録記録再生システムを社内で用いる場合、会議参加者が変化しない場合、等であれば、各社員の音声特徴量を、予め記録部3に記録しておくようにしてもよい。
The
The feature
また、特徴データ抽出部2は、会議中において、入力される音声データの各部分の属性を識別する音声状況データを生成する。ここで、属性には、音声データの送信元装置、該装置での収音時刻、等が含まれている。
Further, the feature
記録部3は、大容量の磁気ディスク等からなり、機能的に音声データ記録部301、音声状況データ記録部302、および特徴データ記録部303を備える。音声データ記録部301は、ネットワークI/F4を介して入力される音声データを順次記録する。この際、音声データ記録部301には、音声会議装置111用の記録領域と、音声会議装置112用の記録領域とが用意されており、それぞれ対応する領域に音声データが記録される。音声状況データ記録部302は、特徴データ抽出部2から入力される音声状況データ、すなわち音声データの送信元装置、収音時刻等の情報を記録する。特徴データ記録部303は、特徴データ抽出部2が会議に先立って抽出した会議参加者の音声特徴量を記録する。
The
また、特徴データ抽出部2は、パソコン102から記録されている音声データの再生を指示されたとき、音声データ記録部301に記録されている音声データから音声特徴量を抽出して、特徴データ記録部303に記録しておいた音声特徴量と比較する。その結果、特定の話者(例えば議長)の発言による音声データの記録区間を抽出することができる。録音サーバ101は、抽出した記録区間はそのままの音声で、この区間以外の音声を話速変換(高速再生)し、会議のダイジェストデータとしてパソコン102にストリーミング配信する。これにより、パソコン102においては、議事録のダイジェスト再生を行うことができる。
Further, when the feature
図4は、パソコン102の構成を示すブロック図である。
パソコン102は、CPU121、ハードディスク等の記憶部122、表示部123、操作入力部124、ネットワークI/F125、スピーカ126を備えている。
FIG. 4 is a block diagram showing the configuration of the
The
CPU121は、通常のパソコンの処理制御を行うとともに、記憶部122に記憶されている再生アプリケーションプログラム(以下、再生アプリと言う)を読み出して実行することで、音声データの再生手段として機能する。再生アプリは、ユーザの議事録再生要求に応じ、録音サーバ101に、記録音声データの再生リクエストを送信する。また、再生アプリは、ユーザの話者指定を受付け、録音サーバ101に記録されている音声データから、特定の話者を指定し、上記ダイジェストデータを受信して再生する。これにより、指定された話者の発言を効率良く聴くことができるダイジェスト再生を実現する。なお、ユーザは、複数の話者を指定することもでき、この場合、指定された複数の話者の音声区間はそのままの音声で、他の区間が高速再生される。
The
記憶部122は、磁気ディスク、半導体メモリ等からなり、再生アプリを記憶するとともに、CPU121が各機能を実行する際の作業部として利用される。
The
表示部123は、液晶ディスプレイ等により構成され、CPU121で再生アプリが実行されると、再生アプリが起動してCPU121から表示画面情報が与えられ種々の画面を表示する。
The
操作入力部124は、キーボードやマウスからなり、ユーザの操作入力を受け付けてCPU121に与える。例えば、マウスで表示画面上のカーソルを移動させ、該当位置でマウスをクリックすることにより、クリック情報がCPU121に与えられ、CPU121はクリック位置とクリック状況から操作入力内容を判断して所定の再生処理を行う。
The
ネットワークI/F125は、パソコン102をネットワーク100に接続させ、CPU121からの通信制御に応じて、CPU121からの制御信号や、録音サーバ101から音声データ(ストリーミングデータ)を受信する。
The network I /
スピーカ126は、CPU121の制御に従い音声データを放音する。
The
次に、録音サーバ101の録音フローについて図5を参照して説明する。
図5は、録音サーバ101の録音処理フローを示すフローチャートである。なお、この録音処理フローが行われる前に、各会議参加者の音声特徴量は、記録部3に登録しておくものとする。
録音サーバ101は、ネットワーク100での音声データ通信を監視している。録音サーバ101は、会議開始トリガを検出すると録音を開始する(S1→S2)。この際、会議開始トリガとしては、ネットワーク100に音声データが通信されたことを検知することで得られたり、各音声会議装置111、112が会議開始スイッチの押下により会議開始パルスを発してこれを検知することにより得ることができる。また、録音サーバ101に録音開始スイッチが備えられていれば、この録音開始スイッチが押下されることにより検知することもできる。
Next, the recording flow of the
FIG. 5 is a flowchart showing a recording process flow of the
The
録音が開始されると、録音サーバ101(制御部1)は内蔵タイマ等により録音開始時間を取得し、特徴データ抽出部2に与える。特徴データ抽出部2は、この録音開始時刻を1つの音声データファイルのタイトルとして保存する(S3)。
When recording is started, the recording server 101 (control unit 1) acquires the recording start time by a built-in timer or the like, and gives it to the feature
ネットワークI/F4は、ネットワーク100で通信される音声データを取得し、制御部1、特徴データ抽出部2、および記録部3に与え、記録部3は順次音声データを記憶する(S4)。
The network I / F 4 acquires audio data communicated through the
この際、制御部1は、ネットワークI/F4が取得した音声データに付加された情報から装置データ、時間データを取得して(S5)、装置データを記録部3に与える。記録部3は、制御部1から取得した装置データに従い、音声データを装置別に順次音声データ記録部301に記録する。
At this time, the
また、制御部1は、音声データから装置データ、時間データを取得し、特徴データ抽出部2に与える(S5)。特徴データ抽出部2は、装置データ、および時間データから音声状況データを生成し、記録部3に与える。記録部3は、特徴データ抽出部2からの音声状況データを音声状況データ記録部302に記録する(S6)。
In addition, the
このような音声状況データの生成、記録処理と音声データの記録処理とは、録音終了トリガが検出されるまで繰り返し行われる。そして、録音終了トリガ、または録音の一時停止のトリガが検出されれば(S7)、制御部1は、特徴データ抽出部2に録音終了制御指示を与える。なお、録音終了トリガは、ネットワーク100に接続された音声会議装置111、112の会議終了スイッチ押下や電源オフ等を検出することにより得られる。特徴データ抽出部2は、最終の音声状況データを生成、記録するとともに、音声状況データ記録部302に予め記録された各音声状況データを録音開始時に取得したタイトルでグループ化するグループ化指示データを生成して音声状況データ記録部302に記録する(S8)。
Such generation / recording processing of voice status data and recording processing of voice data are repeated until a recording end trigger is detected. When a recording end trigger or a recording pause trigger is detected (S7), the
このような構成および処理を行うことで、音声データ記録部301には、経時的に連続する音声データが装置毎に記録され、議事録として記録される。
次に、録音サーバ101、パソコン102の再生フローについて図6、および図7のフローチャートを用いて説明する。
図6は、パソコン102の再生処理フローを示すフローチャートである。
まず、CPU121は、ユーザが操作入力部124を用いて議事録検索キーワードを入力したか否かを判断する(S21)。議事録検索キーワードは、例えば会議日時、会議名、装置名、等である。CPU121は、この入力されたキーワードを録音サーバ101に送信する(S22)。録音サーバでは、キーワードから議事録が検索され、該当する結果がパソコン102に受信される(S23)。CPU121は、受信した結果を表示部123に表示する(S24)。これにより、ユーザは、記録されている議事録の一覧を確認することができ、再生したい議事録を指定することができる。
By performing such a configuration and processing, the audio
Next, the playback flow of the
FIG. 6 is a flowchart showing a playback processing flow of the
First, the
その後、ユーザが再生リクエストを入力したか否かを判断する(S25)。再生リクエストが入力されなければS21から処理を繰り返す。再生リクエストは、表示部123に表示された検索結果から、ユーザがマウス等で再生する議事録を指定することによって入力される。再生リクエストには、通常再生(話速変換無し)、ダイジェスト再生の指定情報が含まれている。また、ダイジェスト再生の場合、どの話者の発話を優先的に聴くかを示す話者指定情報(話者指定が複数の場合は、複数話者の優先順位情報も含む)が入力される。
Thereafter, it is determined whether or not the user has input a reproduction request (S25). If no reproduction request is input, the process is repeated from S21. The reproduction request is input when the user designates the minutes to be reproduced with a mouse or the like from the search result displayed on the
再生リクエストが入力された場合、CPU121は、再生リクエスト、および話者指定情報を録音サーバ101に送信する(S26)。録音サーバ101では、指定された議事録を読み出し、話者指定情報に基づいて解析処理(後述する)がされ、ストリーミングデータが生成される。このストリーミングデータがパソコン102に受信される(S27)。CPU121は、受信したストリーミングを再生し、スピーカ126から音声を放音する(S28)。
When the reproduction request is input, the
その後、CPU121は、ユーザが再生変更指示を入力したか否かを判断する(S29)。再生変更指示は、例えば一時停止指示、早送り指示、等からなる。CPU121は、入力された再生変更指示に応じて、再生変更処理を行う(S30)。例えば、一時停止指示が入力されていればストリーミングデータの再生を一時停止し、音声の放音を停止する。
Thereafter, the
その後、CPU121は、ユーザが終了指示を入力したか否かを判断する(S31)。終了指示が有れば終了指示情報を録音サーバ101に送信する(S32)。終了指示が無ければストリーミングデータの受信から処理を繰り返す。S32の終了指示は、上記の一時停止指示とは異なり、ストリーミングデータの受信を停止し、この再生処理フローを終える指示である。
Thereafter, the
図7は、録音サーバ101の再生処理フローを示すフローチャートである。
同図(A)のフローは、パソコン102から議事録検索キーワードが送信されたことがトリガとなる。制御部1は、パソコン102から議事録検索キーワードを受信すると、このキーワードに該当する議事録を記録部3の音声状況データ記録部302から検索する(S51)。議事録検索キーワードは、上述したように、会議日時、装置名、等である。制御部1は、キーワードに該当する議事録の会議日時、会議名、装置名、等を検索結果として返信する(S52)。この結果、パソコン102の表示部123に検索結果が表示される。
FIG. 7 is a flowchart showing the playback processing flow of the
The flow in FIG. 6A is triggered by the transmission of the minutes search keyword from the
同図(B)のフローは、パソコン102から再生リクエスト、および話者指定情報が送信されたことがトリガとなる。なお、ダイジェスト再生でない(通常再生)場合は、記録部3から議事録を読み出して配信(ストリーミング配信)するのみであるため、その説明は省略する。制御部1は、パソコン102から再生リクエスト、および話者指定情報を受信すると、特徴データ抽出部2にこれらを与える。特徴データ抽出部2は、話者指定情報から、記録部3の特徴データ記録部303に記録されている会議参加者の音声特徴量のうち、指定された話者の特徴データを読み出す(S71)。また、特徴データ抽出部2は、再生リクエストに指定されている議事録を記録部3の音声データ記録部301から読み出す(S72)。読み出した音声データから音声特徴量を抽出し、S71で読み出した特定の話者の特徴データと比較する解析処理を行う(S73)。なお、議事録は、所定の時間長(例えば2〜3秒)だけ読み出して、まずこの数秒分だけの解析処理を行う。
The flow in FIG. 5B is triggered by the transmission request and speaker designation information transmitted from the
特徴データ抽出部2は、パターンマッチング等の手法により、読み出した音声データから特定の話者の特徴データと合致する音声特徴量を有する区間を抽出する。この区間を特定の話者の発話区間とする。特徴データ抽出部2は、特定の話者の発話区間以外の区間を話速変換し(S74)、ストリーミングデータを生成する(S75)。変換速度は、例えば2倍速とする。また、変換速度を可変にしてもよい。例えば、特定の話者の発話区間に近い部分は低倍速(1.5倍等)、または通常速度とし、特定の話者の発話区間から遠ざかるほど高倍速に設定する。
The feature
また、話速変換処理は、単に音声データを倍速で読み出して出力するだけではなく、以下のようにして行う。すなわち、話速変換処理は、音声データ(音声信号)を1周期の波形に切りわけ、各周期波形の前後1区間を合成した新たな周期波形を生成することで音声信号の周期波形数を減らして、音程を保ちつつ信号を圧縮する処理である。 In addition, the speech speed conversion process is performed not only by reading and outputting the voice data at double speed but also as follows. That is, in the speech speed conversion process, the voice data (voice signal) is cut into one-cycle waveform, and the number of periodic waveforms of the voice signal is reduced by generating a new periodic waveform by synthesizing one section before and after each periodic waveform. Thus, the signal is compressed while maintaining the pitch.
図8(A)は、話速変換処理の手順を示すフローチャートである。また、同図(B)は圧縮方法を説明する図である。同図(A)において、まず音声信号の先頭部分の1周期のサンプル数(例えばサンプリング周波数×1/信号周波数)を検出する(S91)。この1周期分のサンプルデータである周期波形を2つ取り出して、同図(B)に示すように、1つめの周期波形Aに対して減衰利得係数を乗算することによって減衰波を作成し、2つめの周期波形Bに対して増加利得係数を乗算することによって増加波を作成する(S92)。そして、これらを加算合成することによってAとBの中間の形状の周期波形を合成する(S93)。この合成波形を周期波形A、Bに代えて出力する(S94)。周期波形Aと周期波形Bに代えて、合成波形を出力することによって音響的に自然な時間軸圧縮を行う。 FIG. 8A is a flowchart showing the procedure of speech speed conversion processing. FIG. 2B is a diagram for explaining a compression method. In FIG. 9A, first, the number of samples in one cycle of the head portion of the audio signal (for example, sampling frequency × 1 / signal frequency) is detected (S91). Two periodic waveforms, which are sample data for one period, are taken out and, as shown in FIG. 5B, an attenuation wave is created by multiplying the first periodic waveform A by an attenuation gain coefficient, An increasing wave is created by multiplying the second periodic waveform B by an increasing gain coefficient (S92). Then, by adding and synthesizing these, a periodic waveform having an intermediate shape between A and B is synthesized (S93). This synthesized waveform is output in place of the periodic waveforms A and B (S94). Instead of the periodic waveform A and the periodic waveform B, an acoustically natural time axis compression is performed by outputting a composite waveform.
また、この話速変換処理を行う周期を規定することで、変換速度を可変とすることができる。例えば、図9(A)に示すように、2周期毎に周期波形を2つ合成することで、2倍速に変換することができ、同図(B)に示すように、3周期毎に周期波形を2つ合成することで、1.5倍速に変換することができる。なお、図7のS73の処理において、特定の話者の発話区間について話速変換してもよい。この場合、その話者の発言内容の理解を助けるため、音声を伸長する処理をすればよい。伸長処理の場合は、図8(B)の周期波形Aと周期波形Bとの間に、上述の合成波形を挿入し、音声信号の周期波形数を増やせばよい。なお、この場合、区間の先頭部分(例えば数百msec)のみを伸長して、それ以後を通常速度で出力するようにし、必要以上に伸長しないようにしてもよい。また、先頭部分を伸長し、それ以後を圧縮するようにしてもよい。 Also, the conversion speed can be made variable by defining the cycle for performing the speech speed conversion processing. For example, as shown in FIG. 9A, it can be converted to double speed by synthesizing two periodic waveforms every two cycles, and every three cycles as shown in FIG. 9B. By combining two waveforms, it can be converted to 1.5 times speed. Note that in the process of S73 of FIG. 7, the speech speed may be converted for the utterance section of a specific speaker. In this case, in order to help the speaker understand the content of the utterance, a process of expanding the voice may be performed. In the case of decompression processing, the above-described synthesized waveform may be inserted between the periodic waveform A and the periodic waveform B in FIG. 8B to increase the number of periodic waveforms of the audio signal. In this case, only the head portion (for example, several hundred msec) of the section may be expanded and the subsequent portion may be output at the normal speed, and may not be expanded more than necessary. Further, the head portion may be expanded and the subsequent portion may be compressed.
なお、特定の話者の発話区間以外の区間をスキップ(倍率無限大に圧縮)するようにしてもよい。また、特徴データとして、無意味な発言(例えば「え〜、あ〜」の様な発言)の音声特徴量を記録部3に記録しておき、S72の処理において、この発言区間を音声認識により抽出し、無意味な発言のみスキップするようにしてもよい。
Note that sections other than a specific speaker's speech section may be skipped (compressed to infinite magnification). Further, as feature data, a voice feature amount of a meaningless utterance (for example, a utterance such as “e ~ a ~ a”) is recorded in the
以上のような処理により、話速変換後のストリーミングデータを生成する。図7(B)において、特徴データ抽出部2は、この話速変換後のストリーミングデータを、パソコン102に送信する(S76)。終了指示情報をパソコン102から受信するまでS72〜S76の処理を繰り返す(S77→S72)。パソコン102から終了指示情報を受信していれば、動作を終える(S77→END)。S72〜S76の処理は、所定時間長の音声データ(例えば2〜3秒)に対してそれぞれ行われるため、最初の数秒分のストリーミングデータが配信されるまでは、パソコン102は受信待ちとなり、以後はパソコン102の再生処理とは別タスクでストリーミングデータが生成される。従って、最初の配信が始まると、以後は待ち時間無く議事録ダイジェストを聴くことができる。
Through the above processing, the streaming data after the speech speed conversion is generated. In FIG. 7B, the feature
なお、本発明の議事録記録、再生システムは、以下の様な応用例が可能である。図10は、応用例に係る音声会議装置の構成を示すブロック図である。この音声会議装置は、図1の音声会議装置111、112のそれぞれに代えて使用される。なお、図2に示した音声会議装置111と共通する構成部については同一の符号を付し、その説明を省略する。
The minutes recording / reproducing system of the present invention can be applied as follows. FIG. 10 is a block diagram illustrating a configuration of an audio conference apparatus according to an application example. This audio conference apparatus is used in place of each of the
応用例に係る音声会議装置は、制御部11、入出力I/F12、放音指向性制御部13、D/Aコンバータ14、放音アンプ15、スピーカSP1〜SP16、マイクMIC101〜116、201〜216、収音アンプ16、A/Dコンバータ17、収音ビーム生成部18、収音ビーム選択部19、エコーキャンセル回路20、操作部31、表示部32を備えている。
The audio conference apparatus according to the application example includes a
この音声会議装置の制御部11は、入出力I/F12から入力される相手装置からの音声データを、ネットワーク形式のデータから一般的な音声信号に変換してエコーキャンセル回路20を介して放音指向性制御部13に出力するとともに、入力音声信号に添付された方位データを取得して、放音指向性制御部13に対して放音制御を行う。
The
放音指向性制御部13は、放音制御内容に応じてスピーカSP1〜SP16に対する放音音声信号を生成する。スピーカSP1〜SP16に対する放音音声信号は、入力音声データを遅延制御や振幅制御等の信号制御処理を行うことにより形成される。D/Aコンバータ14はディジタル形式の放音音声信号をアナログ形式に変換し、放音アンプ15は放音音声信号を増幅してスピーカSP1〜SP16に与え、スピーカSP1〜SP16は、放音音声信号を音声変換して放音する。これにより、自装置の会議者に、ネットワークで接続された相手先装置の会議者の音声を放音する。
The sound emission
マイクMIC101〜116、201〜216は自装置の会議者の発声音を含む周囲の音を収音して電気信号変換し、収音音声信号を生成する。
The
収音ビーム生成部18は、マイクMIC101〜116、201〜216の収音信号に対して遅延処理等を行い、所定方位に強い指向性を有する収音ビーム音声信号MB1〜MB8を生成する。収音ビーム音声信号MB1〜MB8はそれぞれ異なる方位に強い指向性を有するように設定されている。図10の音声会議装置を図1の音声会議装置111に置き換えた場合であれば、MB1を方位Dir11に、MB2を方位Dir12に、MB3を方位Dir13に、MB4を方位Dir14に、MB5を方位Dir15に、MB6を方位Dir16に、MB7を方位Dir17に、MB8を方位Dir18に設定される。一方、図10の音声会議装置を図1の音声会議装置112に置き換えた場合であれば、MB1を方位Dir21に、MB2を方位Dir22に、MB3を方位Dir23に、MB4を方位Dir24に、MB5を方位Dir25に、MB6を方位Dir26に、MB7を方位Dir27に、MB8を方位Dir28に設定される。
The collected
収音ビーム選択部19は、収音ビーム音声信号MB1〜MB8の信号強度を比較して、最も強度の高い収音ビーム音声信号を選択し、収音ビーム音声信号MBとしてエコーキャンセル回路20に出力する。収音ビーム選択部19は、選択した収音ビーム音声信号MBに対応する方位Dirを検出して制御部11に与える。入出力I/F12は、エコーキャンセル回路20からの収音ビーム音声信号MBをネットワーク形式で所定データ長からなる音声データに変換し、制御部11から得られる方位データと収音時間データとを添付して、ネットワーク100に出力する。
The collected sound
次に、応用例に係る録音サーバ101の録音フローについて図11を参照して説明する。
図11は録音サーバ101の録音処理フローを示すフローチャートである。
録音サーバ101は、ネットワーク100での音声データ通信を監視している。録音サーバ101は、会議開始トリガを検出すると録音を開始する(S101→S102)。
Next, a recording flow of the
FIG. 11 is a flowchart showing a recording process flow of the
The
録音が開始されると、録音サーバ101(制御部1)は録音開始時間を取得し、特徴データ抽出部2に与える。特徴データ抽出部2は、この録音開始時刻を1つの音声状況データのタイトルとして保存する(S103)。
When recording is started, the recording server 101 (control unit 1) acquires the recording start time and gives it to the feature
ネットワークI/F4は、ネットワーク100で通信される音声データを取得し、記録部3に与え、記録部3は順次音声データを記憶する(S104)。
The network I / F 4 acquires the audio data communicated through the
この際、制御部1は、ネットワークI/F4が取得した音声データから装置データ、方位データ、時間データを取得して、装置データを記録部3に与える。記録部3は、制御部1から取得した装置データに従い、音声データを装置別に順次音声データ記録部301に記録する。
At this time, the
また、制御部1は、音声データから装置データ、方位データ、時間データを取得し、特徴データ抽出部2に与える(S105)。特徴データ抽出部2は、これら装置データ、方位データおよび時間データを一時記憶する。
In addition, the
この処理は、装置毎に方位データの変化を制御部1が検出するまで繰り返し行われ、方位データの変化を制御部1が検出すると(S106)、制御部1はセッション終了処理制御を特徴データ抽出部2に与える(S107)。特徴データ抽出部2は、同じ方位データからなる音声データ群を関連付けするため、該当する音声データ群の装置データと方位データと開始時間データとを備える音声状況データを生成して記録部3に与える。記録部3は、特徴データ抽出部2からの音声状況データを音声状況データ記録部302に記録する(S108)。このような音声状況データの生成、記録処理と音声データの記録処理とは、録音終了トリガが検出されるまで繰り返し行われ、方位データが変化する毎に音声状況データの生成、記録が行われる。
This process is repeated until the
そして、録音終了トリガが検出されれば(S110)、制御部1は、特徴データ抽出部2に録音終了制御指示を与える。特徴データ抽出部2は、最終の音声状況データを生成、記録するとともに、音声状況データ記録部302に予め記録された各音声状況データを録音開始時に取得したタイトルでグループ化するグループ化指示データを生成して音声状況データ記録部302に記録する(S111)。
When the recording end trigger is detected (S110), the
音声データ記録部301には、経時的に連続する音声データが装置毎に記録される。この際、音声データは、音声状況データ記録部302に記録された音声特徴データにより、方位データ別に区分されている。なお、方位データと各話者の関係(すなわち各方位にどの話者が存在するか)は、会議参加者(議長)が予め登録する。これにより、音声データは、話者毎に区分されることとなる。
The sound
地点aの音声データであれば、話者Aの音声データ、話者Bの音声データ、話者Cの音声データ、話者Dの音声データ、話者Eの音声データ、話者Fの音声データ、話者Gの音声データ、および話者の指定されていない無音(雑音)の音声データとで区分化される。そして、各区分化音声データには区分の開始時間データが関連付けされる。なお、発言がなければ、音声特徴データには記録されない。 If it is voice data of point a, voice data of speaker A, voice data of speaker B, voice data of speaker C, voice data of speaker D, voice data of speaker E, voice data of speaker F , The voice data of the speaker G and the voice data of silence (noise) not designated by the speaker. Each segmented audio data is associated with segment start time data. If there is no speech, it is not recorded in the voice feature data.
同様に、地点bの音声データであれば、話者Hの音声データ、話者Iの音声データ、話者Jの音声データ、話者Kの音声データ、話者Lの音声データ、および話者の指定されていない無音(雑音)の音声データとで区分化され、区分毎の開始時間データが関連付けされる。この場合も、発言がなければ、音声特徴データには記録されない。 Similarly, if the voice data is at point b, the voice data of speaker H, the voice data of speaker I, the voice data of speaker J, the voice data of speaker K, the voice data of speaker L, and the speaker And voice data of silence (noise) that is not designated, and start time data for each section is associated. Also in this case, if there is no speech, it is not recorded in the voice feature data.
このように、応用例の構成及び処理を用いることで、それぞれの会議参加者に対応する音声特徴データを備えた状態で議事録を記録することができる。そして、時間データも関連付けされていることで、各会議者の発言状況をも含んで議事録を記録することができる。これにより、ダイジェスト再生処理を行う場合に、指定した話者の発言を精度良く抽出することができる。 In this way, by using the configuration and processing of the application example, it is possible to record the minutes with the audio feature data corresponding to each conference participant. Since the time data is also associated, the minutes can be recorded including the speech status of each conference participant. Thereby, when performing digest reproduction | regeneration processing, the speech of the designated speaker can be extracted accurately.
応用例において、録音サーバ101は、図7(B)の解析処理時(S73)に、読み出した音声データから音声特徴量を抽出するとともに、音声データに記録されている話者区分に従って、特定の話者の発話区間を決定する。音声特徴量から抽出した特定の話者の発話区間について、音声データに記録されている話者区間が特定の話者の区間と一致するかをさらに判断して、両者が一致すれば、特定の話者の発話区間として決定する。一致しなければ他の話者の発話区間とする。これにより、特定の話者の発話区間を高精度に抽出する。
In the application example, the
なお、本実施形態では、ネットワークに接続する複数の音声会議装置で多地点会議を行う場合を示したが、単一の音声会議装置のみを使う場合であっても、同様の作用・効果を得ることができる。 In this embodiment, a case where a multipoint conference is performed with a plurality of audio conference apparatuses connected to the network is shown, but the same operation and effect can be obtained even when only a single audio conference apparatus is used. be able to.
なお、本実施形態では、音声データを記録する例について説明したが、音声会議装置にカメラ等を設置することで、さらに画像(静止画、動画)データを記録することも可能である。画像データは、音声データと同期して記録し、再生時には、音声データと同時に画像データも同期して表示すればよい。 In the present embodiment, an example of recording audio data has been described. However, it is possible to further record image (still image, moving image) data by installing a camera or the like in the audio conference apparatus. The image data may be recorded in synchronization with the audio data, and at the time of reproduction, the image data may be displayed in synchronization with the audio data.
100−ネットワーク
101−録音サーバ
1−制御部
2−特徴データ生成部
3−記録部
4−ネットワークI/F
111,112−音声会議装置
100-network 101-recording server 1-control unit 2-characteristic data generation unit 3-recording unit 4-network I / F
111, 112-voice conference equipment
Claims (5)
音声特徴量を抽出する音声特徴量抽出手段と、
前記特定の話者の音声特徴量と、前記音声特徴量抽出手段が抽出した音声特徴量と、を比較し、前記音声データのうち、特定の話者の音声データ記録区間を抽出する話者抽出手段と、
前記特定の話者の音声データ記録区間以外の区間の音声データを、時間軸に圧縮する処理を行う話速変換手段と、
圧縮済みの区間を含んだ音声データを外部に出力する出力手段と、
を備えた音声データ記録再生装置。 Recording means for recording sound data of pronunciations of a plurality of speakers, and sound features of a specific speaker;
Voice feature quantity extraction means for extracting voice feature quantities;
Speaker extraction for comparing the voice feature quantity of the specific speaker with the voice feature quantity extracted by the voice feature quantity extraction unit and extracting the voice data recording section of the specific speaker from the voice data Means,
Speech speed conversion means for performing processing for compressing voice data of a section other than the voice data recording section of the specific speaker on a time axis;
Output means for outputting audio data including a compressed section to the outside;
An audio data recording / reproducing apparatus comprising:
前記記録手段は、前記音声データ、前記話者識別データ、および前記特定の話者の音声特徴量を記録し、
前記話者抽出手段は、前記話者識別データ、または音声特徴量の比較結果、の少なくともいずれか一方に基づいて前記特定の話者の音声データ記録区間を抽出する請求項1、請求項2、または請求項3に記載の音声データ記録再生装置。 Including the data acquisition means for acquiring voice data and speaker identification data for identifying a speaker of the voice data over time;
The recording means records the voice data, the speaker identification data, and the voice feature amount of the specific speaker,
The said speaker extraction means extracts the audio | voice data recording area of the said specific speaker based on at least any one of the said speaker identification data or the comparison result of an audio | voice feature-value. Or the audio | voice data recording / reproducing apparatus of Claim 3.
前記放収音装置は、前記マイクアレイの各マイクの収音音声信号に基づいて、それぞれに異なる方位に強い指向性を有する複数の収音ビーム信号を形成し、該複数の収音ビーム信号を比較して、最も信号強度の強い収音ビーム信号を選択するとともに、選択された収音ビーム信号に対応する方位を検出して、前記選択された収音ビーム信号を音声データとし、前記検出した方位を話者識別データとして出力することを特徴とする音声データ記録再生装置。 The audio data recording / reproducing device according to claim 4, wherein the audio data recording / reproducing device is connected to a sound emission and collection device including a microphone array.
The sound emission and collection device forms a plurality of sound collection beam signals having strong directivities in different directions based on the sound collection sound signals of the microphones of the microphone array, and the plurality of sound collection beam signals In comparison, the sound collecting beam signal having the strongest signal intensity is selected, the direction corresponding to the selected sound collecting beam signal is detected, the selected sound collecting beam signal is set as audio data, and the detected signal is detected. An audio data recording / reproducing apparatus, characterized in that the direction is output as speaker identification data.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006128514A JP2007298876A (en) | 2006-05-02 | 2006-05-02 | Voice data recording and reproducing apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006128514A JP2007298876A (en) | 2006-05-02 | 2006-05-02 | Voice data recording and reproducing apparatus |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007298876A true JP2007298876A (en) | 2007-11-15 |
Family
ID=38768392
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006128514A Pending JP2007298876A (en) | 2006-05-02 | 2006-05-02 | Voice data recording and reproducing apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007298876A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017092815A (en) * | 2015-11-13 | 2017-05-25 | 株式会社コーチ・エィ | Image display system, image display method and image display program |
US10692503B2 (en) | 2016-03-25 | 2020-06-23 | Tencent Technology (Shenzhen) Company Limited | Voice data processing method, apparatus and storage medium |
US10699700B2 (en) | 2018-07-31 | 2020-06-30 | Tencent Technology (Shenzhen) Company Limited | Monaural multi-talker speech recognition with attention mechanism and gated convolutional networks |
-
2006
- 2006-05-02 JP JP2006128514A patent/JP2007298876A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017092815A (en) * | 2015-11-13 | 2017-05-25 | 株式会社コーチ・エィ | Image display system, image display method and image display program |
US10692503B2 (en) | 2016-03-25 | 2020-06-23 | Tencent Technology (Shenzhen) Company Limited | Voice data processing method, apparatus and storage medium |
US10699700B2 (en) | 2018-07-31 | 2020-06-30 | Tencent Technology (Shenzhen) Company Limited | Monaural multi-talker speech recognition with attention mechanism and gated convolutional networks |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2007318438A (en) | Voice state data generating device, voice state visualizing device, voice state data editing device, voice data reproducing device, and voice communication system | |
JP5134876B2 (en) | Voice communication apparatus, voice communication method, and program | |
US7672844B2 (en) | Voice processing apparatus | |
CN105378826B (en) | Audio scene device | |
US20210243528A1 (en) | Spatial Audio Signal Filtering | |
JP2010187363A (en) | Acoustic signal processing apparatus and reproducing device | |
JP2009139592A (en) | Speech processing device, speech processing system, and speech processing program | |
CN110349582B (en) | Display device and far-field voice processing circuit | |
WO2010024426A1 (en) | Sound recording device | |
JP6716300B2 (en) | Minutes generation device and minutes generation program | |
JP2007256498A (en) | Voice situation data producing device, voice situation visualizing device, voice situation data editing apparatus, voice data reproducing device, and voice communication system | |
JP2010054728A (en) | Sound source extracting device | |
WO2019114015A1 (en) | Robot performance control method and robot | |
JP2008205896A (en) | Sound emitting and picking up device | |
WO2014112206A1 (en) | Memory control device, playback control device, and recording medium | |
JP2006330170A (en) | Recording document preparation support system | |
KR20050010927A (en) | Audio signal processing apparatus | |
JP2007298876A (en) | Voice data recording and reproducing apparatus | |
JP2008048342A (en) | Sound acquisition apparatus | |
JP2008310138A (en) | Scene classifier | |
JP4402644B2 (en) | Utterance suppression device, utterance suppression method, and utterance suppression device program | |
JP2011199698A (en) | Av equipment | |
JP2005055667A (en) | Audio processing device | |
WO2023276539A1 (en) | Voice conversion device, voice conversion method, program, and recording medium | |
JP2005055666A (en) | Audio processing device |