JP7296214B2 - speech recognition system - Google Patents

speech recognition system Download PDF

Info

Publication number
JP7296214B2
JP7296214B2 JP2019021924A JP2019021924A JP7296214B2 JP 7296214 B2 JP7296214 B2 JP 7296214B2 JP 2019021924 A JP2019021924 A JP 2019021924A JP 2019021924 A JP2019021924 A JP 2019021924A JP 7296214 B2 JP7296214 B2 JP 7296214B2
Authority
JP
Japan
Prior art keywords
speaker
file
digital voice
digital
recognition system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019021924A
Other languages
Japanese (ja)
Other versions
JP2020129080A (en
Inventor
浩之 三浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2019021924A priority Critical patent/JP7296214B2/en
Publication of JP2020129080A publication Critical patent/JP2020129080A/en
Application granted granted Critical
Publication of JP7296214B2 publication Critical patent/JP7296214B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、話者の発話に対して、認識精度の高い音声認識システムに関するものである。 The present invention relates to a speech recognition system with high recognition accuracy for utterances of speakers.

マイクロホンから音声入力された音声データをテキスト化する音声認識装置は、広く普及している。そして、特許文献1には話者ごとに発声特徴を学習させて、音声認識の精度を高める音声認識装置が開示されている。 2. Description of the Related Art A speech recognition device that converts voice data input from a microphone into text is widely used. Patent Document 1 discloses a speech recognition apparatus that learns utterance characteristics for each speaker to improve the accuracy of speech recognition.

また、様々なクラウドサービスにおいて、ディープラーニング(深層学習)を利用した学習システムが構築されている。これらの学習システムは、インターネットを介して多数のユーザから収集されるデータを基に、ニューラルネットワークベースの処理装置で自己学習することにより、データの分析や解析を行う。 In addition, learning systems using deep learning are built in various cloud services. These learning systems perform data analysis and analysis by self-learning with neural network-based processing devices based on data collected from a large number of users via the Internet.

人間からの指示を待たずに自己学習してゆくことで、効率的に処理装置の出力精度を高めることが可能であり、ディープラーニングを活用したクラウドサービスによってデータ分析された分析結果をユーザは利用している。 By self-learning without waiting for instructions from humans, it is possible to efficiently improve the output accuracy of the processing device, and users can use the analysis results of data analysis by cloud services that utilize deep learning. are doing.

特開2002-2151848号公報Japanese Patent Application Laid-Open No. 2002-2151848

しかし、特許文献1の音声認識装置は、マイクロホンから収集される音声のみから学習しているため、収集できる音声データに限界がある。また、上述のクラウドサービスでは演算処理部を並列に多数配置するような大規模のシステムが構築されているのに対して、特許文献1の音声認識装置はシステム規模が小さいものとなってしまう。従って、特許文献1の音声認識装置は学習精度の向上が遅く、テキスト化、話者特定の精度がなかなか向上しないという問題がある。 However, since the speech recognition apparatus of Patent Document 1 learns only from speech collected from a microphone, there is a limit to the speech data that can be collected. Further, in the cloud service described above, a large-scale system is constructed in which a large number of arithmetic processing units are arranged in parallel. Therefore, the speech recognition apparatus of Patent Literature 1 has a problem that improvement in learning accuracy is slow, and accuracy in text conversion and speaker identification is slow to improve.

また、マイクロホンに入力される音声は、様々な録音環境下で収集されるため、処理装置により音声の分析、解析を行ってテキスト化する際に、同じ話者が同じ文章を読み上げたとしても、録音環境によって音声認識の精度にばらつきが生じていた。 In addition, since the voice input to the microphone is collected under various recording environments, when the voice is analyzed and converted into text by the processing device, even if the same speaker reads the same sentence, Accuracy of speech recognition varied depending on the recording environment.

本発明の目的は、上述の課題を解決し、インターネットを介したクラウドサービスである学習型サーバを利用することで、収集した音声を精度良くテキスト化すると共に、精度良く話者の特定を行う音声認識システムを提供することにある。 The object of the present invention is to solve the above-mentioned problems, and by using a learning server that is a cloud service via the Internet, the collected speech is converted into text with high accuracy, and the speaker can be specified with high accuracy. To provide a recognition system.

上記目的を達成するための本発明に係る音声認識システムは、話者が発声した音声を含むアナログ音データに基づいて、デジタル音声データから成るデジタル音声ファイルを生成する処理部と、該処理部の処理結果を表示するモニタ部とから構成され、インターネットを介して接続され、自己学習機能を備える文字変換サーバに対して、前記デジタル音声ファイルを送信し、前記文字変換サーバから前記デジタル音声ファイルをテキスト化した文章ファイルを受信し、該文章ファイルを前記モニタ部に表示する音声認識システムであって、前記処理部は、前記アナログ音データに対して、所定のビットレートでデジタル化すると共に、雑音を除去する第1の閾値と、騒音を除去する第2の閾値に基づいて、ノイズを除去して前記デジタル音声データを生成し、インターネットを介して接続され、自己学習機能を備えた話者特定サーバに対して、前記デジタル音声ファイル及び前記話者のユーザID情報を送信し、前記デジタル音声ファイルに対する前記話者の特定結果を受信し、前記文章ファイルと前記話者の特定結果とを併せて前記モニタ部に表示することを特徴とする。 A speech recognition system according to the present invention for achieving the above object comprises a processing unit for generating a digital audio file composed of digital audio data based on analog audio data including audio uttered by a speaker; and a monitor unit that displays the processing result. The digital voice file is transmitted to a character conversion server connected via the Internet and equipped with a self-learning function, and the digital voice file is converted to text from the character conversion server. a speech recognition system for receiving a text file converted into text files and displaying the text file on the monitor unit, wherein the processing unit digitizes the analog sound data at a predetermined bit rate and removes noise. A speaker identification server connected via the Internet and having a self-learning function for generating the digital voice data by removing noise based on a first threshold for removing noise and a second threshold for removing noise. , the digital voice file and the speaker's user ID information are transmitted, the speaker's identification result for the digital voice file is received, and the text file and the speaker's identification result are combined with the It is characterized by being displayed on the monitor unit .

本発明に係る音声認識システムによれば、マイク等の集音部より入力された音声を含むアナログ音データ、又は予め電子ファイルとして集音部を介して録音し、記録された音声を含むアナログ音データを、インターネット上に設けた文字変換サーバが認識し易いビットレートに即してデジタル化すると共に、文字変換サーバの変換精度を高めるために、雑音及び騒音を除去する閾値の初期設定を行い、ノイズ除去の処理を行う。閾値の初期設定処理を行うことで、精度良くデジタル音声データをテキスト化できると共に、会話内容をほぼリアルタイムでテキスト化することができる。 According to the speech recognition system according to the present invention, analog sound data including voice input from a sound collecting unit such as a microphone, or analog sound including voice recorded in advance as an electronic file via the sound collecting unit Data is digitized at a bit rate that is easy for a character conversion server on the Internet to recognize, and in order to improve the conversion accuracy of the character conversion server, initial settings are made for noise and noise removal thresholds, Perform noise removal processing. By performing the initial setting process of the threshold value, it is possible to convert the digital voice data into text with high accuracy, and to convert the contents of the conversation into text almost in real time.

音声認識システムのシステム構成図である。1 is a system configuration diagram of a speech recognition system; FIG. アナログ音データをデジタル化した際の説明図である。FIG. 4 is an explanatory diagram when analog sound data is digitized; 閾値の微調整を行う初期設定処理のフローチャート図である。FIG. 10 is a flowchart of initial setting processing for finely adjusting the threshold; 音声データから音声ファイルを生成する場合のフローチャート図である。FIG. 10 is a flowchart for generating an audio file from audio data; 話者の音声データを波形で表した説明図である。FIG. 3 is an explanatory diagram showing voice data of a speaker represented by a waveform; 話者ごとの音声データの一覧図である。4 is a list of voice data for each speaker; FIG. 別の話者の音声データを波形で表した説明図である。FIG. 10 is an explanatory diagram showing voice data of another speaker represented by a waveform; 話者ごとの音声データを判別する説明図である。FIG. 4 is an explanatory diagram for determining speech data for each speaker; モニタ部に表示されるテキスト文の説明図である。FIG. 4 is an explanatory diagram of a text sentence displayed on a monitor unit;

本発明を図示の実施例に基づいて詳細に説明する。図1は音声認識システム1のシステム構成図であり、例えば話者Ha、Hb、Hcの中心にマイク等である集音部を配置している。 The present invention will be described in detail based on the illustrated embodiments. FIG. 1 is a system configuration diagram of a speech recognition system 1. For example, sound collectors such as microphones are arranged at the center of speakers Ha, Hb, and Hc.

音声認識システム1は、周囲の音を時間に対して連続的に変化する電圧値として入力する集音部2と、この集音部2から入力した連続した電圧値であるアナログ音データSのデジタル化処理及びノイズ除去処理を行うことでデジタル音声ファイルFを生成し、このデジタル音声ファイルFを文字変換サーバ及び話者特定サーバに送信し、文章ファイルWと話者Hの特定結果を受信する処理部3と、処理部3の処理結果を表示するモニタ部4から構成される。 The speech recognition system 1 includes a sound collector 2 that inputs ambient sounds as voltage values that change continuously with time, and analog sound data S, which are continuous voltage values input from the sound collector 2, as digital data. A process of generating a digital voice file F by performing conversion processing and noise removal processing, transmitting this digital voice file F to a character conversion server and a speaker identification server, and receiving a text file W and a result of identifying the speaker H. It is composed of a unit 3 and a monitor unit 4 for displaying the processing result of the processing unit 3 .

音声認識システム1には、市販のPC、スマートフォンやタブレット端末を用いてもよく、集音部2として例えば外付けのマイク等を使用する。この集音部2をテーブル等の話者間の中央に設置することになる。 A commercially available PC, smartphone, or tablet terminal may be used for the speech recognition system 1, and an external microphone or the like is used as the sound collector 2, for example. This sound collecting unit 2 is installed in the center of the table or the like between the speakers.

処理部3は演算部3a、メモリ部3b及び記憶部3cから成り、記憶部3cに記憶したソフトウェアを起動することで、デジタル化処理や各種のデータ加工を行う。この処理部3と集音部2とは有線又は無線で接続されている。 The processing unit 3 comprises a computing unit 3a, a memory unit 3b and a storage unit 3c, and performs digitization processing and various data processing by starting software stored in the storage unit 3c. The processing unit 3 and the sound collecting unit 2 are connected by wire or wirelessly.

モニタ部4は処理部3と接続されており、例えば液晶ディスプレイからなり、モニタ部4に処理部3で行う各種処理結果等を表示することができる。なお、モニタ部4はネットワークを介して接続した別のPCや携帯端末のモニタ等であってもよい。 The monitor unit 4 is connected to the processing unit 3 and is composed of, for example, a liquid crystal display. Note that the monitor unit 4 may be a monitor of another PC or mobile terminal connected via a network.

文字変換サーバ5は、インターネットIN上に存在するニューラルネットワークベースのAPI(Application Programming Interface)であり、音声認識システム1とインターネットINを介して接続されている。 The character conversion server 5 is a neural network-based API (Application Programming Interface) existing on the Internet IN, and is connected to the speech recognition system 1 via the Internet IN.

文字変換サーバ5では、音声認識システム1の処理部3からデジタル音声ファイルFがインターネットINを介してアップロードされると、文章ファイルWに変換するテキスト化処理を行い、処理部3は生成した文章ファイルWをダウンロードすることができる。数分間に渡る長いデジタル音声ファイルFをアップロードすると、テキスト化処理に時間を要するため、デジタル音声データVを数10秒以下に区切ったデジタル音声ファイルFを、文字変換サーバ5にアップロードすることが好ましい。 In the character conversion server 5, when the digital voice file F is uploaded from the processing unit 3 of the voice recognition system 1 via the Internet IN, text conversion processing is performed to convert it into a text file W, and the processing unit 3 generates a text file. You can download W. If a long digital voice file F over several minutes is uploaded, it takes time to convert it into text. Therefore, it is preferable to upload the digital voice file F obtained by dividing the digital voice data V into several tens of seconds or less to the character conversion server 5. .

また、文字変換サーバ5は大量のユーザからアップロードされるデジタル音声ファイルFを基にディープラーニングを行い、テキスト化処理を自己修正している。従って、時間が経過するにつれて、テキスト化処理の変換精度が向上することになる。 In addition, the character conversion server 5 performs deep learning based on digital voice files F uploaded by a large number of users, and self-corrects the text conversion process. Therefore, as time passes, the conversion accuracy of the text conversion process improves.

同時に、文字変換サーバ5と別体である話者特定サーバ6は、インターネットIN上に存在するニューラルネットワークベースのAPIであり、音声認識システム1とインターネットINを介して接続されている。 At the same time, the speaker identification server 6, which is separate from the character conversion server 5, is a neural network-based API existing on the Internet IN, and is connected to the speech recognition system 1 via the Internet IN.

この話者特定サーバ6では、予め話者Hごとに音声サンプルを登録しておき、音声認識システム1からデジタル音声ファイルFを話者特定サーバ6にアップロードすると、登録している話者データに基づいて、デジタル音声ファイルFの話者Hを特定することが可能である。例えば、話者Haのデジタル音声ファイルFをアップロードすると、話者Haが既に話者特定サーバ6に登録されていれば、デジタル音声ファイルFの声主は、話者Haであると特定されることになる。また、話者特定サーバ6には多数の話者Hが登録されているため、登録しているユーザIDのグループをデジタル音声ファイルFと共にアップロードすることで、効率的にグループ内のユーザIDから話者Hを認識することが可能である。 In this speaker specifying server 6, a voice sample is registered in advance for each speaker H, and when the digital voice file F is uploaded from the speech recognition system 1 to the speaker specifying server 6, it is processed based on the registered speaker data. , it is possible to identify the speaker H of the digital audio file F. For example, when uploading a digital voice file F of a speaker Ha, if the speaker Ha has already been registered in the speaker identification server 6, the voice of the digital voice file F is identified as the speaker Ha. become. In addition, since a large number of speakers H are registered in the speaker identification server 6, by uploading a group of registered user IDs together with the digital voice file F, it is possible to efficiently speak from the user IDs in the group. Person H can be recognized.

この話者特定サーバ6も大量のユーザからアップロードされるデジタル音声ファイルFを基に、ディープランニングを利用して自己学習によるデータ分析、解析を行いながら話者特定を行うため、時間が経過するにつれて話者特定の精度が向上する。 This speaker identification server 6 also analyzes data by self-learning using deep learning based on the digital voice files F uploaded by a large number of users, and identifies the speaker as time passes. The accuracy of speaker identification is improved.

例えば、複数の話者である話者Ha、Hb、Hcから成るグループ内の3人のユーザIDを、話者Ha、Hb、Hcの発声した音声を含むアナログ音データSを変換したデジタル音声ファイルFと共に、話者特定サーバ6にアップロードすることにより、各話者Ha、Hb、Hcの特定はグループ内の3人のユーザIDから選出されることになる。従って、話者特定サーバ6は話者特定の処理速度が速くなると共に、話者特定の精度が向上することになる。 For example, three user IDs in a group consisting of a plurality of speakers Ha, Hb, and Hc are converted from analog sound data S containing voices uttered by speakers Ha, Hb, and Hc to a digital voice file. By uploading together with F to the speaker identification server 6, the identification of each speaker Ha, Hb, Hc will be selected from the user IDs of the three people in the group. Therefore, the speaker identification server 6 can speed up the processing speed of speaker identification and improve the accuracy of speaker identification.

図1に示すように、例えば話者Ha、Hb、Hcにより会議を開始する際には、話者Ha、Hb、Hcの中心に1個の集音部2を配置し、この集音部2から入力されるアナログ音データSを処理部3により随時に変換してデジタル音声ファイルFを生成し、このデジタル音声ファイルFを文字変換サーバ5及び話者特定サーバ6にアップロードすることになる。 As shown in FIG. 1, for example, when speakers Ha, Hb, and Hc start a conference, one sound collector 2 is arranged at the center of the speakers Ha, Hb, and Hc. The processing unit 3 converts the analog sound data S input from , at any time, to generate a digital voice file F, and the digital voice file F is uploaded to the character conversion server 5 and the speaker identification server 6 .

先ず、文字変換サーバ5に最も適したデジタル音声ファイルFを送信するにあたり、話者Ha、Hb、Hcに対して、等間隔となる場所に集音部2を配置する。各話者Hから集音部2までの距離が等間隔であればよく、距離は机等の配置に応じて例えば1~3mの範囲で適宜に設定すればよい。 First, in transmitting the most appropriate digital voice file F to the character conversion server 5, the sound collectors 2 are arranged at equal intervals for the speakers Ha, Hb, and Hc. The distance from each speaker H to the sound collector 2 may be equal, and the distance may be appropriately set within a range of 1 to 3 m, for example, according to the layout of the desk or the like.

このようにして配置した集音部2から入力される、時間に対して連続的に変化する電圧値であるアナログ音データSを、以下の(1)式のビットレートの不連続の値に変換することでデジタル化を行う。
ビットレート=サンプリング周波数×量子化ビット数×チャネル数 (1)
The analog sound data S, which is a voltage value that changes continuously with time and is input from the sound collector 2 arranged in this way, is converted into a discontinuous value of the bit rate in the following equation (1). digitization by
Bit rate = sampling frequency x number of quantization bits x number of channels (1)

アナログ音データSに対して、文字変換サーバ5が認識し易いビットレートになるように各値の設定及び後述するノイズ除去のデータ加工を行うことになる。 For the analog sound data S, each value is set so that the character conversion server 5 can easily recognize the bit rate, and data processing for noise removal, which will be described later, is performed.

(1)式のサンプリング周波数は、大きい値ほど高い音域まで記録可能であるが、音声認識処理においては音声として入力される周波数帯域のみを集音できればよいので、サンプリング周波数の設定は余分な周波数領域をカットする4KHz、又は8KHz程度に設定することが好ましい。 The higher the sampling frequency in equation (1), the higher the sound range that can be recorded. is preferably set to about 4 KHz or 8 KHz to cut the

サンプリング周波数の設定が時間方向に対する間隔の設定であるのに対して、振幅方向に対する間隔の設定である量子化ビット数の設定を行う。量子化ビット数の設定を16ビットとすることで、0~65535の範囲で電圧値を量子化、つまり数値化することができる。 While the setting of the sampling frequency is the setting of the interval in the time direction, the number of quantization bits, which is the setting of the interval in the amplitude direction, is set. By setting the number of quantization bits to 16 bits, the voltage value can be quantized in the range of 0 to 65535, that is, digitized.

チャネル数の設定はモノラルである1が好ましく、このようにして得られる(1)式のビットレートは、サンプリング周波数が4KHzの場合では64Kbps、8KHzの場合では128Kbpsとなり、人間の発声の周波数帯域を中心に変換されることになる。 It is preferable to set the number of channels to 1, which is monaural, and the bit rate of formula (1) thus obtained is 64 Kbps when the sampling frequency is 4 KHz and 128 Kbps when the sampling frequency is 8 KHz. It will be converted to the center.

図2は集音部2から入力されたアナログ音データSである電圧値を(1)式のビットレートに即して、デジタル化した際の説明図であり、時間軸である横軸における各出力値の間隔がサンプリング周波数に対応し、縦軸が音量に相当する電圧値を量子化した量子化値に対応している。 FIG. 2 is an explanatory diagram when the voltage value, which is the analog sound data S input from the sound collector 2, is digitized according to the bit rate of formula (1). Intervals between output values correspond to sampling frequencies, and the vertical axis corresponds to quantized values obtained by quantizing voltage values corresponding to volume.

話者Ha、Hb、Hcの何れか一人の音声を利用して、設定したビットレートに変換した量子化値に対して、更にノイズ除去のための閾値P1、P2を設定する処理を行う。これらの閾値P1、P2の初期設定を行い、ノイズ除去の処理を行うことで、アップロードするデジタル音声ファイルFを文字変換サーバ5及び話者特定サーバ6が認識し易い、デジタル音声データVとして生成することができるようになる。 Using the speech of one of the speakers Ha, Hb, and Hc, the quantization value converted to the set bit rate is further processed to set threshold values P1 and P2 for noise removal. By initializing these thresholds P1 and P2 and performing noise removal processing, the digital voice file F to be uploaded is generated as digital voice data V that can be easily recognized by the character conversion server 5 and the speaker identification server 6. be able to

ノイズ除去の手順として、先ず話者Hが発話していない状態で数秒間を経過させて、量子化値の最高値を閾値P1として記憶する。この発話していない状態の閾値P1である量子化値は、室内のエアコンの音、パソコンのファン音等や、人間の耳では聞き取れない音である雑音を量子化した値であり、一定の範囲の時間変化の少ない値が得られる。 As a procedure for removing noise, first, several seconds pass while the speaker H does not speak, and the highest quantized value is stored as the threshold value P1. The quantized value, which is the threshold value P1 in the non-utterance state, is a value obtained by quantizing noise, which is sound that cannot be heard by human ears, such as the sound of an air conditioner in a room, the sound of a computer fan, etc., and is within a certain range. A value with little change over time is obtained.

続いて、発話していない時間の経過後に、話者Hが所定期間、発話することで、最大の量子化値Rを抽出することができ、この量子化値Rに所定割合を乗算した値を閾値P2と設定する。この所定割合は例えば1.2程度が好ましい。 Subsequently, after the speaker H speaks for a predetermined period after the passage of time during which he has not spoken, the maximum quantized value R can be extracted. A threshold P2 is set. This predetermined ratio is preferably about 1.2, for example.

閾値P1を下回る量子化値は、上述の雑音が該当し、閾値P2を上回る量子化値は、騒音が該当することになる。これらの雑音及び騒音から成るノイズを除去することで、図2に示す矩形の点線で囲まれた閾値P1から閾値P2の間に含まれる量子化値のみから成るデジタル音声データVを生成することができる。 A quantized value below the threshold value P1 corresponds to the noise described above, and a quantized value above the threshold value P2 corresponds to noise. By removing these noises and noises made up of noises, it is possible to generate digital audio data V consisting only of quantized values included between the thresholds P1 and P2 enclosed by the rectangular dotted lines shown in FIG. can.

そして、図2に示す閾値P2を上回る騒音Zの量子化値は除去され、集音部2から等距離で配置している話者Ha、Hb、Hcの会話のみがデジタル音声データVとして生成され、このデジタル音声データVから成るデジタル音声ファイルFが文字変換サーバ5及び話者特定サーバ6に送信されることになる。 Then, the quantized value of the noise Z exceeding the threshold value P2 shown in FIG. , a digital voice file F composed of this digital voice data V is transmitted to the character conversion server 5 and the speaker identification server 6 .

図3はデジタル音声ファイルFの作成に際して、処理部3により閾値P1及び閾値P2の微調整を行う初期設定処理の詳細を示したフローチャート図である。この初期設定処理では、話者Hは予め用意した原稿を読み上げて、文字変換サーバ5により認識した文章と読み上げた原稿とを比較して、閾値P1及び閾値P2の微調整を行う。このようにすることで、更に精度良く文字変換サーバ5による文字認識が可能となる。 FIG. 3 is a flow chart showing the details of the initial setting process for finely adjusting the threshold values P1 and P2 by the processing unit 3 when creating the digital audio file F. As shown in FIG. In this initial setting process, the speaker H reads out a manuscript prepared in advance, compares the text recognized by the character conversion server 5 with the read out manuscript, and finely adjusts the threshold values P1 and P2. By doing so, the character recognition by the character conversion server 5 can be performed with higher accuracy.

ステップST11において、先ず、話者Hは発話しない時間の経過後に、用意した原稿である文章Tx0を読み上げて、集音部2に入力する。高音であって会話上で音量が大きい「サシスセソ」を含むと共に、低音であって音量が小さい「ン」を含む文章Tx0を、例えば「コンニチワ、サシスセソ、シンシントユキガフリツモル」という文字列を予め用意した原稿として、読み上げる。 In step ST11, first, speaker H reads out sentence Tx0, which is a prepared manuscript, and inputs it to sound collecting unit 2 after a period of time during which speaker H does not speak. A sentence Tx0 containing a high-pitched tone with a high volume in conversation and a low-pitched tone with a low volume "N", for example, a character string such as "Konnichiwa, Sashisu Seso, Shin Shinto Yukiga Fritsumoru" is prepared in advance. Read aloud as a prepared manuscript.

続いて、ステップST12において、集音部2を介して入力された文章Tx0を読み上げた基準アナログ音データS0に対して、設定したビットレートによる前述のデジタル化処理を行う。このデジタル変換処理により、図2に示すような量子化値が得られる。 Subsequently, at step ST12, the above-described digitization processing at the set bit rate is performed on the reference analog sound data S0 obtained by reading out the text Tx0 input via the sound collector 2. FIG. Through this digital conversion process, quantized values as shown in FIG. 2 are obtained.

続いてステップST13に移行し、量子化値に対して閾値P1、P2を設定し、閾値P1から閾値P2の間に含まれる量子化値であるデジタル音声ファイルF0を作成する。なお、最初の発話しない時間帯の量子化値に基づいて、雑音を除去する閾値P1を設定し、読み上げた文章Tx0内の最大の量子化値に基づいて騒音を除去する閾値P2を設定する。 Subsequently, in step ST13, thresholds P1 and P2 are set for the quantized values, and a digital audio file F0 with quantized values between the thresholds P1 and P2 is created. A threshold value P1 for removing noise is set based on the quantized value of the first non-speech time period, and a threshold value P2 for removing noise is set based on the maximum quantized value in the read-out sentence Tx0.

次にステップST14に移行し、デジタル音声ファイルF0を文字変換サーバ5にインターネットINを介してアップロードする。数秒後に文字変換サーバ5によってテキスト化された文章ファイルW1を受信し、ステップST15において文章ファイルW1の文章Tx1と、予め読み上げた文章Tx0との比較を行う。一致する場合は、ステップST16に移行し、文字変換サーバ5及び話者特定サーバ6に対する閾値P1、P2を記憶部3cに記憶して初期設定処理は完了する。 Next, in step ST14, the digital voice file F0 is uploaded to the character conversion server 5 via the Internet IN. After several seconds, the character conversion server 5 receives the text file W1, and in step ST15, compares the text Tx1 of the text file W1 with the text Tx0 read out in advance. If they match, the process proceeds to step ST16, the threshold values P1 and P2 for the character conversion server 5 and the speaker identification server 6 are stored in the storage unit 3c, and the initial setting process is completed.

ステップST15において、文章Tx0及び文章Tx1の比較が一致しなかった場合には、ステップST17に移行する。ステップST17では、加工音データS1に対して、ステップST13の閾値P1、P2を設定の微調整を行う。これは、録音環境等により文字変換サーバ5の認識率が変化するため、文字変換サーバ5が認識し易い閾値P1、P2を抽出するためである。 In step ST15, if the comparison between the sentences Tx0 and Tx1 does not match, the process proceeds to step ST17. In step ST17, the threshold values P1 and P2 in step ST13 are finely adjusted for the processed sound data S1. This is because the recognition rate of the character conversion server 5 changes depending on the recording environment or the like, so that the threshold values P1 and P2 that are easily recognized by the character conversion server 5 are extracted.

ステップST17において、文章Tx0と文章Tx1とを比較した結果、最初の文字が一致しない場合、例えば文章Tx0が「オンニチハ」と認識された場合には、発音始めの量子化値を必要以上にカットしていると考えられるので、閾値P1を数%下げる処理を行う。また、「サシスセソ」に加工音データS1に対して、認識率が悪い場合には、閾値P2を更に数%上げる処理を行う。このようにして調整した閾値P1、P2に基づいて、ノイズ除去処理を行い、デジタル音声ファイルF0を作成する。 In step ST17, as a result of comparing the sentences Tx0 and Tx1, if the first characters do not match, for example, if the sentence Tx0 is recognized as "onnichiha", the quantization value at the beginning of pronunciation is cut more than necessary. Therefore, a process of lowering the threshold value P1 by several percent is performed. Further, when the recognition rate is low for the processed sound data S1 of "sasisseso", the threshold value P2 is further increased by several percent. Based on the threshold values P1 and P2 adjusted in this manner, noise removal processing is performed to create a digital audio file F0.

そして、ステップST14でデジタル音声ファイルF0を再度、文字変換サーバ5に送信し、ステップST15で、再びデジタル音声ファイルF0に対するテキスト化した文章Tx2と、読み上げた文章Tx0とを比較する。 Then, in step ST14, the digital voice file F0 is sent to the character conversion server 5 again, and in step ST15, the sentence Tx2 converted to text for the digital voice file F0 is compared with the read-out sentence Tx0.

文章Tx0及び文章Tx2が再度一致しなかった場合は、ステップST17に戻る。このステップST17の修正処理には、比較した文章の一致率を記憶しておき、文章Tx0及び文章Txnが一致するまで閾値P1、P2の上下する割合を適宜に調整する。 If the sentence Tx0 and the sentence Tx2 do not match again, the process returns to step ST17. In the correction process of step ST17, the matching rates of the compared sentences are stored, and the rate of increase or decrease of the thresholds P1 and P2 is appropriately adjusted until the sentences Tx0 and Txn match.

このようにして、閾値P1、P2に基づく雑音、騒音の除去する処理を、ステップST14、ステップST15、ステップST17で繰り返すことで、文字変換サーバ5による認識率が高いデジタル音声データVから成るデジタル音声ファイルFを作成することが可能となり、微調整を行った閾値P1、P2を記憶部3cに記憶して、初期設定処理は完了する。 In this way, the noise based on the threshold values P1 and P2 and the process of removing the noise are repeated in steps ST14, ST15, and ST17, so that the character conversion server 5 recognizes a digital voice composed of the digital voice data V with a high recognition rate. The file F can be created, and the finely adjusted thresholds P1 and P2 are stored in the storage unit 3c, completing the initial setting process.

図4は初期設定を完了した後に、話者Ha、Hb、Hcによって会議を開始した場合の処理部3の処理のフローチャート図である。会議が開始されると、図5に示すように話者Ha、Hb、Hcは時系列にそれぞれ音声を発して、これらが合成された1つのアナログ音データSが得られる。なお、このアナログ音データSは、予め集音部2を介して録音し、記録された電子ファイルのアナログ音データSであってもよく、図1に示すように直接、集音部2を介して処理部3に入力したアナログ音データSであってもよい。 FIG. 4 is a flow chart of the processing of the processing section 3 when the conference is started by the speakers Ha, Hb, and Hc after the initial setting is completed. When the conference starts, the speakers Ha, Hb, and Hc chronologically utter their voices as shown in FIG. 5, and one analog sound data S is obtained by synthesizing the voices. Note that this analog sound data S may be electronic file analog sound data S that has been recorded in advance via the sound collector 2, and may be recorded directly via the sound collector 2 as shown in FIG. It may be the analog sound data S input to the processing unit 3 through the process.

ステップST21において、入力したアナログ音データSに対して、図2のステップST11からステップST13までのデジタル化及びノイズ除去処理を行い、デジタル音声データVを生成する。これらのデジタル化処理及びノイズ除去処理により、例えば、エアコン音、椅子を動かした音や、救急車のサイレン音等が混入したアナログ音データSに対して、それらの雑音、騒音をノイズとして除去したデジタル音声データVを生成することが可能となる。 In step ST21, the input analog sound data S is subjected to digitization and noise removal processing from steps ST11 to ST13 in FIG. By these digitization processing and noise removal processing, for example, for analog sound data S mixed with air conditioner sound, chair moving sound, ambulance siren sound, etc., those noises are removed as noise Digital Audio data V can be generated.

図5は時間t11から録音を開始したデジタル音声データVを分かり易くするために簡略した波状形で表した説明図である。例えば、最初に話者Haが「これから会議を始めます。」と発言し、次に話者Hbが「了解です。」、更に話者Hcが「分かりました。」と続き、その後に話者Haが「それでは議題に移ります。」と発言したときの音声の波形である。 FIG. 5 is an explanatory diagram in which the digital audio data V whose recording is started at time t11 is represented by a simplified waveform for easy understanding. For example, first, speaker Ha says, "I'm going to start a meeting." Next, speaker Hb says, "I understand." This is the waveform of the voice when Ha said, "Now let's move on to the agenda."

続いて、図4のステップST22に移行し、デジタル音声データVの発言と発言の間の無音状態である無音時間mを計測する。例えば、無音時間mの閾値を1秒と設定し、1秒以上の無音時間m1が発生すると、ステップST23に移行する。ステップST22で1秒以下の無音時間m0があると、ステップST22の処理を繰り返して行う。 Subsequently, the process proceeds to step ST22 in FIG. 4, and the silent time m, which is a silent state between utterances of the digital voice data V, is measured. For example, when the threshold value of the silent time m is set to 1 second, and the silent time m1 of 1 second or longer occurs, the process proceeds to step ST23. If there is a silent time m0 of one second or less in step ST22, the process of step ST22 is repeated.

ステップST23では、無音時間m1により区切れた直前のデジタル音声データVに対して、話者Hが複数人存在するか否かの判定を行う。この話者Hを識別する処理は、所定間隔でサンプリングしたデジタル音声データVに対して、話者Hごとに中心周波数が異なることを利用する。中心周波数の変位から、無音時間m1により区切られた直前の音声データの話者Hの人数を判別することが可能である。 At step ST23, it is determined whether or not there are a plurality of speakers H in the immediately preceding digital voice data V separated by the silent time m1. This process of identifying the speaker H utilizes the fact that the center frequency differs for each speaker H in the digital voice data V sampled at predetermined intervals. From the displacement of the center frequency, it is possible to determine the number of speakers H of the immediately preceding voice data separated by the silent time m1.

話者Hの人数を判別した後にステップST24に移行し、話者Hが複数である場合はステップST25に移行し、話者Hが単数の場合は、ステップST25を省略してステップST26に移行する。 After determining the number of speakers H, the process proceeds to step ST24. If the number of speakers H is plural, the process proceeds to step ST25. If the number of speakers H is singular, step ST25 is omitted and the process proceeds to step ST26. .

図5に示すデジタル音声データVでは、時間t12、t13、t14、t15で区切られた直前のデジタル音声データVは、何れも1人ずつの周波数特性しかないので、ステップST24では、ステップST25を省略してステップST26に移行する。 In the digital voice data V shown in FIG. 5, since the immediately preceding digital voice data V divided by times t12, t13, t14, and t15 all have frequency characteristics of each person, step ST25 is omitted from step ST24. Then, the process proceeds to step ST26.

ステップST25の処理は後述し、先にステップST26における処理を説明すると、区切られたデジタル音声データVは、図6に示すように話者Haが最初に発言した「これから会議を始めます。」のデジタル音声ファイルF1:t11、話者Hbが発言した「了解です。」のデジタル音声ファイルF2:t12、話者Hcが発言した「分かりました。」のデジタル音声ファイルF3:t13、話者Haが発言した「それでは議題に移ります。」のデジタル音声ファイルF4:t14として保存される。なお、これらのデジタル音声ファイルFに対して、処理部3は誰の発言であるかを特定することはできない。 The processing of step ST25 will be described later, and the processing of step ST26 will be described first. Digital voice file F1: t11, digital voice file F2: t12 of "I understand" uttered by speaker Hb, digital voice file F3: t13 of "I understand" uttered by speaker Hc, speaker Ha It is saved as a digital voice file F4:t14 of the uttered "Let's move on to the agenda." It should be noted that the processor 3 cannot specify whose utterances are for these digital audio files F. FIG.

そして、生成された各デジタル音声ファイルFを、文字変換サーバ5及び話者特定サーバ6に送信する。送信後にステップST22に戻り、ステップST22~ステップST26の処理を繰り返す。 Then, each generated digital voice file F is transmitted to the character conversion server 5 and the speaker identification server 6 . After the transmission, the process returns to step ST22 and repeats the processing of steps ST22 to ST26.

なお、図3のフローチャートに示した閾値P1、P2の初期設定の処理は、話者Haの「これから会議を始めます。」のアナログ音データSを利用して設定することも可能である。録音を開始した無音の時点から時間t12までのアナログ音データSに対して、閾値P1、P2を設定することが可能である。 The initial setting process of the thresholds P1 and P2 shown in the flow chart of FIG. 3 can also be set using the analog sound data S of the speaker Ha's "The meeting will start now." Threshold values P1 and P2 can be set for the analog sound data S from the point of silence when recording is started to time t12.

併せて、無音時間mにより区切られる会話ごとのアナログ音データSの始点は、文字変換サーバ5において「おれから会議を始めます。」との誤変換を防止するために、時間t11より数百msec前を始点として区切り、区切られたデジタル音声データVに対するデジタル音声ファイルF1:t11を作成する。 In addition, in order to prevent the character conversion server 5 from erroneously converting "I will start the meeting." A digital audio file F1:t11 corresponding to the divided digital audio data V is created by dividing the preceding data as a starting point.

また、図5は前述のように話者Ha、Hb、Hcが会話をする際に、最初の話者Haの会話が終わった後に、無音時間m1が発生した後に、次の話者Hbの音声が開始する音声データを示しているが、図7は話者Ha、Hb、Hcの会話の間に無音時間が閾値以下の無音時間m0であった場合におけるデジタル音声データVを簡略した波形で表した説明図である。 FIG. 5 also shows that when the speakers Ha, Hb, and Hc are having a conversation as described above, after the first speaker Ha finishes the conversation, after the silent time m1 occurs, the next speaker Hb's voice FIG. 7 shows a simplified waveform of the digital voice data V in the case where the silent time m0 during the conversation of the speakers Ha, Hb, and Hc is equal to or less than the threshold. It is an explanatory diagram of

図7に示す話者Haの「それでは議題に移ります。」との発言後に、最初の無音時間m1が発生した場合では、ステップST23において、時間t21で区切られた直前のデジタル音声データV’に対して、所定時間でサンプリングして中心周波数を測定する。そして、ステップST24において中心周波数が複数の場合には、つまり話者Hが複数の場合にはステップST25に移行する。 When the first silent time m1 occurs after speaker Ha's utterance "Now let's move on to the agenda" shown in FIG. On the other hand, the center frequency is measured by sampling at a predetermined time. Then, if there are a plurality of center frequencies in step ST24, that is, if there are a plurality of speakers H, the process proceeds to step ST25.

ステップST25では、判別した話者Hごとのデジタル音声ファイルFを生成する。図8は時間t25で無音時間m1が発生することで区切られた直前のデジタル音声データV’に対して、中心周波数の変位から話者Hを判別する場合の説明図である。このデジタル音声データV’の中心周波数を判別することで、時間t21から開始するデジタル音声データVH1、時間t22から開始するデジタル音声データVH2、時間t23から開始するデジタル音声データVH3に区分することができる。 At step ST25, a digital voice file F is generated for each speaker H that has been identified. FIG. 8 is an explanatory diagram for determining the speaker H from the displacement of the center frequency for the immediately preceding digital voice data V' separated by the occurrence of the silent time m1 at time t25. By determining the center frequency of this digital audio data V', it can be divided into digital audio data VH1 starting at time t21, digital audio data VH2 starting at time t22, and digital audio data VH3 starting at time t23. .

なお、デジタル音声データV’の一部に2人の話者Hが重複して発声して録音されている場合であっても、サンプリング周波数を高くすることで、各サンプリング時間を占有する話者Hを特定することができ、重複して発声しているデジタル音声データV’から個々のデジタル音声データVへ区分けすることが可能である。 Note that even if two speakers H are redundantly uttered and recorded in a part of the digital voice data V′, by increasing the sampling frequency, the speakers occupying each sampling time H can be specified, and it is possible to partition the digital voice data V' that are uttered in duplicate into individual digital voice data V. FIG.

更に、2つの発言から成るデジタル音声データVH1からは、発言間に無音時間m1が存在することから、2つのデジタル音声ファイルF1:t21とF4:t24を生成することができる。 Furthermore, two digital voice files F1:t21 and F4:t24 can be generated from the digital voice data VH1 consisting of two utterances, since there is a silent time m1 between the utterances.

以上の判別処理を行うことで、図6に示すデジタル音声ファイルF1:t11~F4:t14と同様なデジタル音声ファイルF1:t21~F4:t24を生成することができる。なお、処理部3ではこれらのデジタル音声ファイルF1:t21~F4:t24について話者が異なることは判別できても、誰の発言であるのかを特定することはできない。 By performing the determination process described above, digital audio files F1:t21 to F4:t24 similar to the digital audio files F1:t11 to F4:t14 shown in FIG. 6 can be generated. Although the processing unit 3 can determine that the speakers are different for these digital audio files F1:t21 to F4:t24, it cannot specify whose utterances are.

また、デジタル音声データVH1から2つのデジタル音声ファイルFを生成する処理を行わず、1つのデジタル音声ファイルF1:t21のみを生成するようにしてもよい。この場合は、デジタル音声ファイルF1:t21の後半の発言と、デジタル音声ファイルF2:t22、F3:t23の発言との時系列を明確にするため、時間t21~t24の情報を各音声ファイルに記憶する必要がある。つまり、デジタル音声ファイルF1:t21に時間t21、t24を記憶することで、後述するモニタ部4に各発言を時間t21~t24の時系列で表示することができる。 Further, it is also possible to generate only one digital audio file F1:t21 without performing the process of generating two digital audio files F from the digital audio data VH1. In this case, in order to clarify the chronological sequence between the utterances in the second half of the digital voice file F1: t21 and the utterances of the digital voice files F2: t22 and F3: t23, information of times t21 to t24 is stored in each voice file. There is a need to. That is, by storing the times t21 and t24 in the digital voice file F1:t21, each utterance can be displayed in chronological order from time t21 to t24 on the monitor section 4, which will be described later.

図5に示すデジタル音声データVと図7に示すデジタル音声データVの処理部3における処理の差は、図5のデジタル音声データVにおいては無音時間m1が発生する度に、デジタル音声ファイルFが生成され、図6のデジタル音声ファイルF1:t11~F4:t14は上から順に生成されて、生成される都度ステップST26に移行することになる。これに対して、図7のデジタル音声データV’においてはデジタル音声ファイルF1:t21~F4:t24がほぼ同時に生成され、ステップST26に移行することになる。 5 and the digital audio data V shown in FIG. 7, the digital audio data V shown in FIG. The digital audio files F1:t11 to F4:t14 in FIG. 6 are generated in order from the top, and each time they are generated, the process proceeds to step ST26. On the other hand, in the digital audio data V' of FIG. 7, the digital audio files F1:t21 to F4:t24 are generated almost simultaneously, and the process proceeds to step ST26.

ステップST26において、生成されたデジタル音声ファイルFを文字変換サーバ5に送信すると、デジタル音声ファイルF1:t11~F4:t14及びデジタル音声ファイルF1:t21~F4:t24は、それぞれテキスト化された文章ファイルW1:t11~W4:t14及び文章ファイルW1:t21~W4:t24に変換され、音声認識システム1はこれらのファイルを受信することになる。 In step ST26, when the generated digital voice file F is sent to the character conversion server 5, the digital voice files F1: t11 to F4: t14 and the digital voice files F1: t21 to F4: t24 are converted into text files. W1: t11 to W4: t14 and text files W1: t21 to W4: t24, and the speech recognition system 1 receives these files.

また、生成されたデジタル音声ファイルFを話者特定サーバ6に送信する際には、デジタル音声ファイルF1:t11~F4:t14及びデジタル音声ファイルF1:t21~F4:t24に加えて、会話を構成する話者Ha~HcのユーザIDを併せて送信する。話者特定サーバ6は、処理部3から送信されたデジタル音声ファイルF1:t11~F4:t14及びデジタル音声ファイルF1:t21~F4:t24に対して、併せて送られてきたユーザIDの中からそれぞれの話者Hを特定し、処理部3は特定結果の話者Ha~Hcをデジタル音声ファイルFに対応して受信する。 Further, when transmitting the generated digital voice file F to the speaker identification server 6, in addition to the digital voice files F1: t11 to F4: t14 and the digital voice files F1: t21 to F4: t24, The user IDs of the speakers Ha to Hc are also transmitted. The speaker identification server 6 selects from among the user IDs sent together with the digital voice files F1:t11 to F4:t14 and the digital voice files F1:t21 to F4:t24 sent from the processing unit 3 Each speaker H is identified, and the processor 3 receives the identified speakers Ha to Hc corresponding to the digital voice file F. FIG.

そして処理部3では、デジタル音声ファイルFに文章ファイルWと特定結果の話者Hを対応付けて、モニタ部4に時系列順に表示する。つまり、話者Hが特定できなかった「これから会議を始めます。」のデジタル音声ファイルF1:t11は、「これから会議を始めます。」の文章ファイルW1:t11と、話者Haが特定されて、図9に示すように表示される。 Then, the processing unit 3 associates the text file W and the identified speaker H with the digital voice file F, and displays them on the monitor unit 4 in chronological order. In other words, the digital voice file F1:t11 of "I will start the meeting now.", for which speaker H could not be specified, is replaced with the text file W1:t11 of "I will start the meeting now." , are displayed as shown in FIG.

デジタル音声ファイルFは、ファイル名末尾が時間tに対する通し番号として保存され、図9に示すように文章ファイルW及び話者Hは時間tの時系列順に表示される。なお、図9では話者Hを識別し易くするために、話者Haを左側に表示し、話者Hb、Hcを右側に表示している。 The digital voice file F is stored as a serial number corresponding to time t at the end of the file name, and the text file W and speaker H are displayed in chronological order of time t as shown in FIG. In FIG. 9, in order to facilitate identification of speaker H, speaker Ha is displayed on the left side, and speakers Hb and Hc are displayed on the right side.

このように各ファイルの生成、クラウドサービスへの送受信に多少のタイムラグが発生するものの、ほぼリアルタイムで最新のデジタル音声ファイルFに対する発言日時、文章ファイルW及び話者Hがモニタ部4の画面下部から順に表示されることになる。 Although some time lag occurs in the generation of each file and transmission/reception to the cloud service in this way, the date and time of the latest digital voice file F, the text file W, and the speaker H are displayed almost in real time from the bottom of the screen of the monitor unit 4. will be displayed in order.

なお、デジタル音声ファイルFのファイル名を基に表示する順を決定しているが、ファイル名以外にも時間t11~t14をファイルのヘッダ等に発言日時として記憶することで、それらの情報を基に時系列で表示することができる。 Although the display order is determined based on the file name of the digital audio file F, by storing the times t11 to t14 in the file header etc. can be displayed in chronological order.

また、表示される発言日時に代えて、画面に表示処理した処理日時を表示するようにしてもよい。この場合は、上述の発言日時を記憶せずに、処理部3からデジタル音声ファイルFを生成した順でクラウドサービスに送信し、受信することを条件として次のデジタル音声ファイルFをクラウドサービスに送るようにしてもよい。 Also, instead of the displayed speech date and time, the processing date and time of display processing may be displayed on the screen. In this case, without storing the above-mentioned utterance date and time, the processing unit 3 transmits the digital voice files F in the order in which they were generated to the cloud service, and on the condition that they are received, the next digital voice file F is sent to the cloud service. You may do so.

図9に示すように、話者会話形式として文章ファイルWと話者Hの特定結果とが併せて表示することで後日に、誰がどのような発言をしたのかを容易に確認することが可能である。また、図9に示す画面を他の端末装置を接続したPCや携帯端末で閲覧可能とすることで、ほぼリアルタイムで他の場所から会議の内容を目視で確認することができる。 As shown in FIG. 9, by displaying both the text file W and the identification result of the speaker H as the speaker conversation format, it is possible to easily confirm who said what kind of statement at a later date. be. Also, by enabling the screen shown in FIG. 9 to be viewed on a PC or a portable terminal connected to another terminal device, it is possible to visually confirm the content of the conference from another location in almost real time.

特に、別の場所で会議を音で聞いている場合には、話者Hを特定できずに、全体の内容を把握し難いのに対して、音声認識システム1では話者と発言内容とを文字で確認できるので会議内容を把握し易い。 In particular, when listening to the conference by sound at another place, it is difficult to identify the speaker H and to grasp the entire contents of the conference. It is easy to understand the content of the meeting because it can be confirmed by text.

更には、音声を出力することが困難な場所での会議内容の確認や、聴覚障害者による会議内容を確認する際に、容易に会議の内容を把握することができる。画面のスクロールにより過去の発言を簡単に確認することもできる。 Furthermore, it is possible to easily grasp the contents of the conference when confirming the contents of the conference in a place where it is difficult to output sound, or when confirming the contents of the conference by a hearing-impaired person. By scrolling the screen, you can easily check past remarks.

また、音声認識システム1のテーブル等の話者Ha~Hcの中央に設置した集音部2により、集音したアナログ音データSを用いて説明したが、別の場所等で録音した音声を含むアナログ音データSのファイルをネットワークや記憶媒体等を経由して記憶部3cに記憶させて、又は直接記憶媒体等から読み込ませて演算部3aにより図3、図4に示すフローチャートの処理を行うようにしてもよい。 In addition, although the analog sound data S collected by the sound collecting unit 2 installed in the center of the speakers Ha to Hc such as the table of the speech recognition system 1 is used in the description, the voice recorded at another place etc. is also included. A file of analog sound data S is stored in the storage unit 3c via a network, a storage medium, or the like, or read directly from the storage medium, etc., and the processing of the flowcharts shown in FIGS. 3 and 4 is performed by the calculation unit 3a. can be

このように、音声認識システム1はインターネットINを介して多数のユーザから収集されるデータを基に、自己学習によりデータ分析、解析を行うクラウドサービスである文字変換サーバ5及び話者特定サーバ6を利用することで、文字変換機能及び話者特定機能を設けることなく、精度のよい文字変換及び話者特定を行うことができる。 As described above, the speech recognition system 1 includes the character conversion server 5 and the speaker identification server 6, which are cloud services for performing data analysis and analysis by self-learning based on data collected from a large number of users via the Internet IN. By using it, accurate character conversion and speaker identification can be performed without providing a character conversion function and a speaker identification function.

また、処理部3により、マイク等の集音部2より入力された音声を含むアナログ音データS、又は予め電子ファイルとして集音部2を介して録音し、記録された音声を含むアナログ音データSを、文字変換サーバ5が認識し易いビットレートに即してデジタル化すると共に、文字変換サーバ5の変換精度を高めるために、雑音及び騒音を除去する閾値P1、P2の初期設定を行い、ノイズ除去の処理を行う。これらの閾値P1、P2の初期設定処理を行うことで、精度良くデジタル音声データVをテキスト化できると共に、会話内容をほぼリアルタイムでテキスト化することができる。更に、録音した音声ファイルに対しても事後的にテキスト化することができるので、迅速な会議内容の把握に役立てることが可能である。 In addition, the processing unit 3 processes analog sound data S including sound input from the sound collecting unit 2 such as a microphone, or analog sound data S including sound recorded in advance as an electronic file via the sound collecting unit 2. S is digitized in accordance with a bit rate that is easy for the character conversion server 5 to recognize, and in order to improve the conversion accuracy of the character conversion server 5, noise and threshold values P1 and P2 for removing noise are initialized, Perform noise removal processing. By performing the initial setting processing of these thresholds P1 and P2, the digital voice data V can be converted into text with high accuracy, and the contents of the conversation can be converted into text almost in real time. Furthermore, since the recorded voice file can also be converted into text after the fact, it is possible to make use of it for quick comprehension of the content of the meeting.

1 音声認識システム
2 集音部
3 処理部
4 モニタ部
5 文字変換サーバ
6 話者特定サーバ
IN インターネット
1 voice recognition system 2 sound collector 3 processor 4 monitor 5 character conversion server 6 speaker identification server IN Internet

Claims (7)

話者が発声した音声を含むアナログ音データに基づいて、デジタル音声データから成るデジタル音声ファイルを生成する処理部と、該処理部の処理結果を表示するモニタ部とから構成され、
インターネットを介して接続され、自己学習機能を備える文字変換サーバに対して、前記デジタル音声ファイルを送信し、前記文字変換サーバから前記デジタル音声ファイルをテキスト化した文章ファイルを受信し、該文章ファイルを前記モニタ部に表示する音声認識システムであって、
前記処理部は、前記アナログ音データに対して、所定のビットレートでデジタル化すると共に、雑音を除去する第1の閾値と、騒音を除去する第2の閾値に基づいて、ノイズを除去して前記デジタル音声データを生成し、
インターネットを介して接続され、自己学習機能を備えた話者特定サーバに対して、前記デジタル音声ファイル及び前記話者のユーザID情報を送信し、前記デジタル音声ファイルに対する前記話者の特定結果を受信し、前記文章ファイルと前記話者の特定結果とを併せて前記モニタ部に表示することを特徴とする音声認識システム。
Consists of a processing unit that generates a digital audio file composed of digital audio data based on analog sound data including the voice uttered by a speaker, and a monitor unit that displays the processing result of the processing unit,
The digital voice file is transmitted to a character conversion server connected via the Internet and equipped with a self-learning function, the text file obtained by converting the digital voice file into text is received from the character conversion server, and the text file is converted to text. A voice recognition system displayed on the monitor unit,
The processing unit digitizes the analog sound data at a predetermined bit rate, and removes noise based on a first threshold for noise removal and a second threshold for noise removal. generating the digital audio data;
Sending the digital voice file and user ID information of the speaker to a speaker identification server connected via the Internet and equipped with a self-learning function, and receiving the speaker identification result for the digital voice file. and displaying the text file and the result of identifying the speaker together on the monitor unit .
前記第1の閾値は、前記話者が発声していない状態において、前記所定のビットレートに則してデジタル化した量子化値に基づいて設定されることを特徴とする請求項1に記載の音声認識システム。 2. The method of claim 1, wherein the first threshold is set based on a quantized value digitized according to the predetermined bit rate when the speaker is not speaking. voice recognition system. 前記第2の閾値は、前記話者が発声した際に、前記所定のビットレートに則してデジタル化した量子化値に基づいて設定されることを特徴とする請求項1又は請求項2に記載の音声認識システム。 3. The method according to claim 1, wherein the second threshold is set based on a quantized value digitized according to the predetermined bit rate when the speaker speaks. A speech recognition system as described. 前記所定のビットレートは、人間の発声の周波数帯域を中心に変換する値であることを特徴とする請求項1~3の何れか1項に記載の音声認識システム。 4. The speech recognition system according to any one of claims 1 to 3, wherein said predetermined bit rate is a value converted around a frequency band of human speech. 前記話者の発言と発言との間の無音状態が所定時間以上の場合に、前記デジタル音声データを区切り、区切れた直前の前記デジタル音声データに基づいて前記デジタル音声ファイルを生成することを特徴とする請求項1~4の何れか1項に記載の音声認識システム。 The digital voice data is divided when a silent state between utterances of the speaker is longer than a predetermined time, and the digital voice file is generated based on the digital voice data immediately before the division. The speech recognition system according to any one of claims 1 to 4, wherein: 前記話者の発言と発言との間の無音状態が所定時間以上の場合に、前記発言の始点より手前の時点から前記デジタル音声データを区切り、区切れた直前の前記デジタル音声データに基づいて、前記デジタル音声ファイルを生成することを特徴とする請求項5に記載の音声認識システム。 when a silent state between utterances of the speaker is longer than a predetermined time, dividing the digital voice data from a point before the starting point of the utterance, and based on the digital voice data immediately before the division, 6. The speech recognition system of claim 5, wherein the speech recognition system generates the digital speech file. 前記モニタ部は前記デジタル音声ファイルに対応する前記文章ファイルと前記特定結果の前記話者とを対応付けて時系列順に表示することを特徴とする請求項に記載の音声認識システム。 2. The speech recognition system according to claim 1 , wherein said monitor unit associates said sentence file corresponding to said digital speech file with said speaker of said specified result and displays them in chronological order.
JP2019021924A 2019-02-08 2019-02-08 speech recognition system Active JP7296214B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019021924A JP7296214B2 (en) 2019-02-08 2019-02-08 speech recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019021924A JP7296214B2 (en) 2019-02-08 2019-02-08 speech recognition system

Publications (2)

Publication Number Publication Date
JP2020129080A JP2020129080A (en) 2020-08-27
JP7296214B2 true JP7296214B2 (en) 2023-06-22

Family

ID=72174544

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019021924A Active JP7296214B2 (en) 2019-02-08 2019-02-08 speech recognition system

Country Status (1)

Country Link
JP (1) JP7296214B2 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000029486A (en) 1998-07-09 2000-01-28 Hitachi Ltd Speech recognition system and method therefor
JP2000352995A (en) 1999-06-14 2000-12-19 Canon Inc Conference voice processing method, recording device, and information storage medium
JP2012073361A (en) 2010-09-28 2012-04-12 Fujitsu Ltd Speech recognizer and speech recognition method
JP2013182150A (en) 2012-03-02 2013-09-12 National Institute Of Information & Communication Technology Speech production section detector and computer program for speech production section detection
JP2013200423A (en) 2012-03-23 2013-10-03 Toshiba Corp Voice interaction support device, method and program

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59124399A (en) * 1982-12-30 1984-07-18 富士通株式会社 Voice recognition equipment
JPH0720892A (en) * 1993-06-30 1995-01-24 Fujitsu Ltd Noise canceling device in voice recognition device

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000029486A (en) 1998-07-09 2000-01-28 Hitachi Ltd Speech recognition system and method therefor
JP2000352995A (en) 1999-06-14 2000-12-19 Canon Inc Conference voice processing method, recording device, and information storage medium
JP2012073361A (en) 2010-09-28 2012-04-12 Fujitsu Ltd Speech recognizer and speech recognition method
JP2013182150A (en) 2012-03-02 2013-09-12 National Institute Of Information & Communication Technology Speech production section detector and computer program for speech production section detection
JP2013200423A (en) 2012-03-23 2013-10-03 Toshiba Corp Voice interaction support device, method and program

Also Published As

Publication number Publication date
JP2020129080A (en) 2020-08-27

Similar Documents

Publication Publication Date Title
CN108922538B (en) Conference information recording method, conference information recording device, computer equipment and storage medium
CN110049270B (en) Multi-person conference voice transcription method, device, system, equipment and storage medium
US20200012724A1 (en) Bidirectional speech translation system, bidirectional speech translation method and program
US20160314781A1 (en) Computer-implemented method, computer system and computer program product for automatic transformation of myoelectric signals into audible speech
WO2007063827A1 (en) Voice quality conversion system
US10614792B2 (en) Method and system for using a vocal sample to customize text to speech applications
JP2023539888A (en) Synthetic data augmentation using voice conversion and speech recognition models
Gallardo Human and automatic speaker recognition over telecommunication channels
JP6599828B2 (en) Sound processing method, sound processing apparatus, and program
JP3473204B2 (en) Translation device and portable terminal device
JPH0993135A (en) Coder and decoder for sound data
JP7296214B2 (en) speech recognition system
EP2541544A1 (en) Voice sample tagging
JP7339151B2 (en) Speech synthesizer, speech synthesis program and speech synthesis method
Westall et al. Speech technology for telecommunications
JP7110057B2 (en) speech recognition system
EP1298647B1 (en) A communication device and a method for transmitting and receiving of natural speech, comprising a speech recognition module coupled to an encoder
JP2003122395A (en) Voice recognition system, terminal and program, and voice recognition method
JP2015122682A (en) Remote conference program, terminal device, and remote conference method
JP3374767B2 (en) Recording voice database method and apparatus for equalizing speech speed, and storage medium storing program for equalizing speech speed
Gallardo Human and automatic speaker recognition over telecommunication channels
JP6970345B2 (en) Learning device, speech recognition device, learning method, speech recognition method and program
JP5052107B2 (en) Voice reproduction device and voice reproduction method
JP2007336395A (en) Voice processor and voice communication system
Cetnarowicz et al. Speaker recognition system and experiments with head/torso simulator and telephone transmission

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190227

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220207

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230516

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230612

R150 Certificate of patent or registration of utility model

Ref document number: 7296214

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150