JP7400364B2 - Speech recognition system and information processing method - Google Patents
Speech recognition system and information processing method Download PDFInfo
- Publication number
- JP7400364B2 JP7400364B2 JP2019203340A JP2019203340A JP7400364B2 JP 7400364 B2 JP7400364 B2 JP 7400364B2 JP 2019203340 A JP2019203340 A JP 2019203340A JP 2019203340 A JP2019203340 A JP 2019203340A JP 7400364 B2 JP7400364 B2 JP 7400364B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- voice
- audio
- acquisition device
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 6
- 238000003672 processing method Methods 0.000 title claims description 5
- 238000010801 machine learning Methods 0.000 claims description 39
- 238000003384 imaging method Methods 0.000 claims description 23
- 238000004891 communication Methods 0.000 claims description 17
- 238000001514 detection method Methods 0.000 claims description 17
- 238000000034 method Methods 0.000 claims description 17
- 230000001360 synchronised effect Effects 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 30
- 238000012545 processing Methods 0.000 description 12
- 238000009434 installation Methods 0.000 description 11
- 238000000605 extraction Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 238000013519 translation Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- NJPPVKZQTLUDBO-UHFFFAOYSA-N novaluron Chemical compound C1=C(Cl)C(OC(F)(F)C(OC(F)(F)F)F)=CC=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F NJPPVKZQTLUDBO-UHFFFAOYSA-N 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000001454 recorded image Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Images
Description
本発明は、音声認識システム及び情報処理方法に関する。 The present invention relates to a speech recognition system and an information processing method .
音声認識を用いたスマートスピーカ、多言語翻訳システムなどが注目を集めている。スマートスピーカは、音声コマンドにより、室内器具の操作や、天気予報などの情報の提供を実現する装置である。多言語翻訳システムはスマートフォン、専用端末などを用いた翻訳装置である。多言語翻訳システムでは、例えば、人の音声が音声検出部であるマイクに入力され、入力された音声が音声認識により文字化された後、翻訳処理によって所望の言語に翻訳され、スピーカから出力される。さらに、コールセンタでの顧客との対話録を生成するシステム、会議録を自動生成するシステムなどの実用化が進み、これらのシステムも音声認識の技術を活用している。 Smart speakers using voice recognition and multilingual translation systems are attracting attention. A smart speaker is a device that uses voice commands to operate indoor appliances and provide information such as weather forecasts. Multilingual translation systems are translation devices that use smartphones, dedicated terminals, etc. In a multilingual translation system, for example, a person's voice is input into a microphone that is a voice detection unit, the input voice is transcribed into text by voice recognition, then translated into a desired language by translation processing, and output from a speaker. Ru. Furthermore, systems that generate conversation records with customers at call centers and systems that automatically generate meeting minutes are being put into practical use, and these systems also utilize voice recognition technology.
特許文献1には、人の音声以外の雑音による音声誤認識を低減して、音声認識の認識率を高める技術が開示されている。特許文献1に開示される技術は、カメラによる撮像中に発生する音をマイクで取得し、カメラで撮像された画像の情報に基づいて、人が発話している発話区間を検出し、当該発話区間で人の音声認識の感度を上げるように構成されている。
しかしながら、例えばテーブルの中心に1つのマイクが設置され、当該テーブルの周囲に人が存在する状況では、人の口元からマイクまでの距離が相対的に遠くなる。従って、S/N比の低い不明瞭な音声が入力されると共に、文法から逸脱したインフォーマルな発話が頻繁に発声される。特許文献1に開示される従来技術は、このような状況での音声認識を想定していないため、音声認識精度を高める上で改善の余地がある。
However, for example, in a situation where one microphone is installed at the center of a table and there are people around the table, the distance from the person's mouth to the microphone becomes relatively long. Therefore, unclear speech with a low S/N ratio is input, and informal utterances that deviate from grammar are frequently uttered. The conventional technology disclosed in
本発明は、上記課題に鑑み、口元からマイクまでの距離が遠い状況でも音声認識精度を高めることができる。 In view of the above problems, the present invention can improve speech recognition accuracy even in situations where the distance from the mouth to the microphone is long.
上記課題に鑑み、本発明に係る音声認識システムは、音声取得装置と、サーバと、を備える音声認識システムであって、前記音声取得装置は、複数の音声を検出する音声検出部と、複数の前記音声の内容を示すデータである音声データを同期させる制御を行う同期制御部と、を備え、前記サーバは、同期された複数の前記音声データに対して、教師ラベルを共用して音声認識エンジンの機械学習を行い、音声を認識する。
In view of the above problems, a speech recognition system according to the present invention includes a speech acquisition device and a server, and the speech acquisition device includes a speech detection section that detects a plurality of speech sounds, and a speech detection section that detects a plurality of speech sounds. a synchronization control unit that performs control to synchronize audio data that is data indicating the content of the audio, and the server shares a teacher label with respect to the plurality of synchronized audio data and uses a speech recognition engine. Perform machine learning to recognize speech .
本発明によれば、口元からマイクまでの距離が遠い状況でも音声認識精度を高めることができるという効果を奏する。 According to the present invention, it is possible to improve speech recognition accuracy even in situations where the distance from the mouth to the microphone is long.
以下、本発明を実施するための形態について図面を用いて説明する。図1は本発明の実施の形態に係る音声認識システムの構成例を示す図である。図1には、会議室100に設置されるテーブル110と、テーブル110の周囲に存在する複数の人(会議出席者31~36)と、音声認識システム300とが示される。
EMBODIMENT OF THE INVENTION Hereinafter, the form for implementing this invention is demonstrated using drawings. FIG. 1 is a diagram showing an example of the configuration of a speech recognition system according to an embodiment of the present invention. FIG. 1 shows a table 110 installed in a
音声認識システム300は、1又は複数の会議出席者31~36の音声をマイクで取得し、取得した音声の内容を示すデータである音声データを機械学習に利用することにより、音声認識精度を高めるように構成されている。また、音声認識システム300は、1又は複数の会議出席者31~36をカメラで撮像し、撮像した画像の内容を示すデータである撮像データを機械学習に利用することにより、音声認識精度を高めるように構成されている。なお、音声認識システム300は、音声データのみを収集して音声認識精度を向上させる構成でもよい。ただし音声データに加えて撮像データを収集することにより、音声認識精度をより一層高めることができる。以下では、音声データと撮像データの双方を収集して音声認識精度を向上させる構成例について説明する。
The
音声認識システム300は、テーブル110の中央に設置される音声取得装置1と、会議室100の壁とテーブル110の間に設置されるホワイトボード120と、クラウドサーバ200とを備える。音声取得装置1で取得された音声データは、ホワイトボード120を介してクラウドサーバ200に送信され、クラウドサーバ200に実装されている音声認識エンジンなどで音声認識の処理が行われる。音声認識の結果得られたテキストデータがホワイトボード120に送られ、そこで字幕表示が行われる。あるいは、当該テキストデータを利用して議事録として発話内容がまとめられる。なお、音声認識の処理により、会議、講演会、インタビューなどの発言を自動でテキスト化する技術、議事録作成する技術は非特許文献1に開示される通り公知であるため、詳細な説明は省略する。
The
音声取得装置1は、テーブル110の周囲に存在する複数の会議出席者31~36の音声を取得する装置である。なお、音声取得装置1は、音声以外にも、複数の会議出席者31~36の画像を取得するように構成される。図2A~図2Cを参照して音声取得装置1の構成例について説明する。
The
図2Aは音声取得装置の外観図である。図2Aには音声取得装置1の外観と共に、音声取得装置1で撮像される会議室100の風景が示される。音声取得装置1は、筐体部2と、音声検出部であるマイク50と、撮像部であるカメラ51とを備える。マイク50には複数チャンネルの音声を取得可能なマルチマイクが利用される。カメラ51には複数チャンネルの画像を取得可能なマルチカメラが利用される。マルチカメラは、例えばそれぞれの画角が90°以上の撮像部を複数組み合わせたものである。
FIG. 2A is an external view of the audio acquisition device. FIG. 2A shows the appearance of the
筐体部2は、テーブル110に設置される円盤状の台座部1aと、台座部1aから鉛直方向に伸び複数のマイク50などをテーブル110から離れた位置に配置する柱状の延伸部1bとを備える、また筐体部2は、延伸部1bの上部に設けられ複数のマルチマイク及びマルチカメラが配置される円盤状のユニット設置部1cを備える。なお、筐体部2の形状は、少なくとも1以上のカメラ51及びマイク50を設けることができる構造であればよく、図示例に限定されるものではない。
The
複数のマイク50の内、1つのマイク50は、ユニット設置部1cの上部に設けられる。残りのマイク50は、ユニット設置部1cの上部以外の場所、例えばユニット設置部1cの側面部に設けられる。側面部は、ユニット設置部1cの外周部全体の内、例えば、鉛直方向と直交する水平面に平行な仮想面を含む部分である。ユニット設置部1cの側面部には、周方向に互いに離れるようにして複数のマイク50が設置される。このように複数のマイク50が設置されることにより、複数の会議出席者31~36がテーブル110を囲むように存在する場合でも、それぞれの会議出席者と向き合うように個々のマイク50が配置される形となるため、マイク50からそれぞれの会議出席者までの距離を短くでき、S/N比の高い明瞭な音声が入力できる。
One
図2Bは音声取得装置のハードウェア構成図である。音声取得装置1は、CPU(Central Processing Unit)101、ROM(Read Only Memory)102、RAM(Random Access Memory)103、入力装置104、通信インタフェース105、及びバス106を備える。
FIG. 2B is a hardware configuration diagram of the audio acquisition device. The
CPU101は、プログラムを実行することにより、音声取得装置1の全体を制御し、後述する各機能を実現する。ROM102は、CPU101が実行するプログラムを含む各種のデータを記憶する。RAM103は、CPU101に作業領域を提供する。入力装置は、前述したマイク50及びカメラ51の他、人の操作に応じた情報を入力するタッチパネル、マウスなどを含む。通信インタフェース105は、音声取得装置1を、例えば外部機器の一例であるホワイトボード120を介して、通信ネットワーク301に接続するためのインタフェースである。通信ネットワーク301は、LAN(Local Area Network)、インターネット、携帯端末用ネットワークなどである。バス106は、CPU101、ROM102、RAM103、入力装置104、及び通信インタフェース105を相互に接続する。
The
図2Cは音声取得装置の機能ブロック図である。音声取得装置1は、開始/終了制御部10、同期制御部11、記録制御部12、記録部13、ミュート制御部14、及び通信制御部15を備える。
FIG. 2C is a functional block diagram of the audio acquisition device. The
開始/終了制御部10は、例えば、複数のマイク50-1~50-n(nは1以上の整数)による録音開始及び録音終了を制御すると共に、複数のカメラ51-1~51-n(nは1以上の整数)による撮像開始及び撮像終了を制御する。
The start/
同期制御部11は、1又は複数のマイク50-1~50-nで取得された複数の音声データを同期させる制御を行うと共に、1又は複数のカメラ51で撮像された1又は複数の撮像データを同期させる制御を行う。同期制御部11による制御の詳細は後述する。
The
記録制御部12は、マイク50とカメラ51で取得した音声データ及び撮像データの記録部13への記録制御を行う。通信制御部15は、ホワイトボード120、クラウドサーバ200などの外部機器との通信制御を行う。通信制御は、例えば、同期制御部で制御された複数の音声データ及び撮像データを、ホワイトボード120を介してクラウドサーバ200へ送信し、又は直接クラウドサーバ200へ送信する制御である。
The
次に図3A及び図3Bを参照してクラウドサーバ200の構成について説明する。図3Aはクラウドサーバのハードウェア構成図である。クラウドサーバ200は、プロセッサ210、メモリ220、及び入出力インタフェース230を備える。
Next, the configuration of the
プロセッサ210は、マイクロコンピュータ、GPU(General Purpose Graphics Processing Unit)、システムLSI(Large Scale Integration)などで構成される演算手段である。メモリ220は、RAM(Random Access Memory)、ROM(Read Only Memory)などで構成される記憶手段である。入出力インタフェース230は、プロセッサ210が音声取得装置1との間で情報の入出力を行うための情報入出力手段である。プロセッサ210、メモリ220及び入出力インタフェース230は、バス240に接続され、バス240を介して、情報の受け渡しを相互に行うことが可能である。バス240は図1に示す通信ネットワーク301に接続される。
The
クラウドサーバ200は、例えば、プロセッサ210がメモリ220に記憶された仮想マシンソフトウェア(仮想化アプリケーション)をインストールすることによって、仮想マシンを稼働させる。仮想マシンソフトウェアは、ホストOS(Operating System)上で個別のハードウェアをエミュレーションすることで、個別のOSをインストールする。これにより、単一のシステム上で、複数の仮想マシンを互いに独立して実行することが可能になる。このクラウド環境において、音声取得装置1からのデータを収集するソフトウェア(データ収集ソフト)、当該データを解析するソフトウェア(解析ソフト)などが構築される。この仮想化技術を利用することで、リソースの効率的な活用、ハードウェアの初期投資コストの抑制、省電力及び省スペースなどが実現できる。
The
図3Bはクラウドサーバの機能ブロック図である。クラウドサーバ200は、音声認識エンジン201、読唇処理部202、及び統合器203を備える。
FIG. 3B is a functional block diagram of the cloud server. The
音声認識エンジン201は、音声特徴量抽出部201a及び音声認識器201bを備える。読唇処理部202は、画像特徴量抽出部202a及び機械読唇器202bを備える。
The
次に図4及び図5を参照して音声認識器201b、機械読唇器202b、統合器203などの動作を説明する。
Next, the operations of the
図4は音声認識器、機械読唇器及び統合器の動作を説明するための図である。音声特徴量抽出部201aでは、音声取得装置1からの音声データの中から機械学習用の入力値としての特徴量である音声特徴量が抽出される。音声特徴量抽出部201aは、例えば、音声取得装置1で取得された複数の音声データを入力して、それぞれの音声データを単位時間ごと(フレームごと)に切り出して、例えば、MFCC(Mel-Frequency Cepstrum Coefficients:メル周波数ケプストラム係数)やメルケプストラム特徴量などのフレームごとの音声信号のスペクトル特徴量を計算し、これを正規化する。
FIG. 4 is a diagram for explaining the operations of the speech recognizer, mechanical lip reader, and integrator. The audio
音声認識器201bは、音声特徴量抽出部201aで抽出された特徴量を用いて機械学習を行うと共に音声を認識する。音声認識器201bは、音声の特徴量を識別する識別器であり、当該識別器には、DNN(Deep Neural Network)を例示できる。DNNは、入力層と、隠れ層と呼ばれる中間層と、出力層とを有する。DNNでは、中間層の数を増やして重層構造にする構成が採られる。DNNを用いて音声を認識するためには、DNNに対して、教師ラベル又は訓練データと呼ばれる情報を利用して、教師あり学習を行うのが最も有効である。なお、DNNを実現するためには、高い演算能力が必要なため、DNNは、クラウドサーバ200で実現することが望ましいが、音声取得装置1が高い演算能力を有するGPUなどを搭載する場合、音声取得装置1で実現してもよい。なお、当該識別器には、DNNのほか、例えば、SVM(Support Vector Machine)、SIFT(Scale-Invariant Feature Transform)などの手法を用いてもよい。
The
音声認識に用いるDNNは様々あり、近年頭角を現しているものとしてEndtoEndモデルがある。EndtoEndモデルとは、非特許文献2に開示される従来手法のように、音響モデル、言語モデル、辞書などの複数の機能へ分割せずに、1つのニューラルネットワークを介して、入力された音声を文字に直接変換するモデルであり、一気通貫モデルとも称される。EndtoEndモデルは、構造がシンプルなため、実装が容易、応答速度が速いなどのメリットがある一方、大量の学習データを要する。
There are various DNNs used for speech recognition, and one that has emerged recently is the End-to-End model. The End-to-End model is a method that processes input audio through a single neural network without dividing it into multiple functions such as an acoustic model, a language model, and a dictionary, as in the conventional method disclosed in
画像特徴量抽出部202aでは、例えば、音声取得装置1からの撮像データの中から機械学習用の入力値としての特徴量である画像特徴量を抽出する。機械読唇に用いる画像特徴量の例を図5に示す。
The image feature extraction unit 202a extracts, for example, an image feature amount that is a feature amount as an input value for machine learning from the imaging data from the
図5は機械読唇に用いる画像特徴量を説明するための図である。まず、画像特徴量抽出部202aは、カメラ51で撮影された画像全体の中から、例えば会議出席者の顔を認識する。顔認識は一般的なアルゴリズムを使用してもよい。次に、画像特徴量抽出部202aは、認識した顔の中から口唇を抽出する。そして、画像特徴量抽出部202aは、抽出した口唇の画像から、図5に示すようにプロットされた複数の点のそれぞれの時系列な動きを、特徴量して抽出する。当該特徴量は、機械読唇を行うためにカメラ51で撮像された会議参加者の口元(口唇)の特徴量である。機械読唇器202bは、当該特徴量を用いて機械学習を行う。例えば、雑音が多い会議の場合、機械読唇器202bは、複数の会議出席者のそれぞれの口元の特徴量を利用して機械学習を行う。なお、当該特徴量の抽出方法は、非特許文献3に開示される通り公知であるため、詳細な説明は省略する。
FIG. 5 is a diagram for explaining image feature amounts used in machine lip reading. First, the image feature extraction unit 202a recognizes, for example, the faces of conference attendees from the entire image captured by the
統合器203は、音声認識器201bによる音声認識結果に、機械読唇器202bによる機械読唇の結果を融合させる。音声認識器201bによる音声認識結果だけでなく、発声時の口唇の動画像を用いる手法は、マルチモーダル音声認識に呼ばれる。マルチモーダル音声認識では、入力動画像を時系列の画像特徴量に変換し、この画像特徴量と音声特徴量とを融合させて音響画像特徴量を生成する。そして、この音響画像特徴量を用いることにより、音声認識を行う。マルチモーダル音声認識は、会議での音声認識精度を高める有益な手段である。
The
次に図6A及び図6Bを参照して、機械読唇による認識精度を向上させための構成例について説明する。図6Aはカメラの第1構成例を示す図である。音声取得装置1が、例えば、筐体部2から着脱可能なカメラ51を備える場合、図6Aに示すように、筐体部2から取り外されたカメラ51を、例えばホワイトボード120などに設置することができる。設置方法は、例えばカメラ51に把持手段を設けておき、この把持手段をホワイトボード120を挟み込み構成でもよいし、ホワイトボード120とカメラ51のそれぞれに嵌め合い構造の器具を設けておき、それらを嵌め合わせることでホワイトボード120へカメラ51を固定してもよい。この構成により、テーブル110以外の場所から、会議室100内を撮像できる。これにより、会議出席者の顔の向きが変わっても、その人の口元を撮像でき、機械読唇できる確率が高まる。
Next, a configuration example for improving recognition accuracy by machine lip reading will be described with reference to FIGS. 6A and 6B. FIG. 6A is a diagram showing a first configuration example of the camera. When the
図6Bはカメラの第2構成例を示す図である。図6Bでは、マルチカメラを構成するカメラ51-1、カメラ51-2、及びカメラ51-2がユニット設置部1cに設けられている。この場合、カメラ51-1、カメラ51-2、及びカメラ51-2のそれぞれでは、異なる方角の画像が撮像される。そのため、マイク50の周囲に複数の会議出席者が存在する状況で、特定の人が発声したときに、その音声がマイク50で検出されると共に、発話している人の画像をマルチカメラで撮像することができる。従って、その音声を発する人物の画像を当該音声に組み合わせて機械学習させることができる。
FIG. 6B is a diagram showing a second configuration example of the camera. In FIG. 6B, a camera 51-1, a camera 51-2, and a camera 51-2 forming a multi-camera are provided in the unit installation section 1c. In this case, each of the cameras 51-1, 51-2, and 51-2 captures images from different directions. Therefore, when a specific person speaks in a situation where there are multiple conference participants around the
なお、音声取得装置1はその高さを調整可能に構成してもよい。例えば、音声取得装置1のユニット設置部1cが直径の異なる2つのパイプで構成され、一方の太いパイプである外管の内側に、他方の細いパイプである内管が挿入され、内管に対して外管が上下方向に移動可能に構成される。例えばテーブル110の面積が小さい場合、音声取得装置1から会議出席者までの距離が近くなる傾向があるため、会議出席者の顔及び口唇がカメラ51の画角に収まらないことがある。その場合、会議出席者の顔及び口唇をカメラ51の画角内に収まるように、ユニット設置部1cの高さを調整することで、その音声を発する人物の画像を正確に捉えことができるため、音声に組み合わせて機械学習させることができる。
Note that the
次に図7~図10を参照して、音声認識システム300が機械学習する動作を説明する。図7は音声認識システムの動作を説明するためのフローチャートである。図8Aはミュートボタンを備えた筐体の外観図である。図8Bはミュートボタンが押される前後の画像の例を示す図である。図9Aは複数のマイクが配置された状態を模式的に示す図である。図9Bは複数のマイクのそれぞれで取得された音声データの一例を示す図である。図10は教師ラベルの一例を示す図である。
Next, the machine learning operation of the
音声取得装置1が起動し、マイク50の録音とカメラ51の録画が開始されると(ステップS1)、図8Aに示すミュートボタン20が押されるまで録音及び録画が継続される(ステップS2,No)。
When the
ミュートボタン20は、例えば、機密情報を含む発話内容の録音を一時停止させ、又は一時的に録音された機密情報を含む発話内容を一定時間遡って消去させるためのボタンである。ミュートボタン20は、録音を一時停止させ、又は発話内容を一定時間遡って消去させるだけでなく、録画を一時停止させ、又は録画された画像を一定時間遡って消去させるものでもよい。 The mute button 20 is, for example, a button for temporarily stopping recording of speech content including confidential information, or for erasing temporarily recorded speech content including confidential information going back a certain period of time. The mute button 20 may be used not only to temporarily stop recording or erase the uttered content going back a certain period of time, but also to temporarily stop recording or erasing recorded images going back a certain period of time.
ミュートボタン20は、例えば音声取得装置1にケーブルを介して接続される筐体に設けられているが、音声取得装置1に設けられていてもよい。ミュートボタン20は、人が操作し易く、又は録音停止状態か否かを識別しやすい形状のものであればよく、押しボタン式のものでもよいし、ダイヤル式のものでもよい。ここでは、押しボタン式の例について説明する。また、ミュートボタン20の横にはLEDが具備され、録音・録画している間はLEDが点灯、録音・録画していない間はLEDが消灯するようにして、データ取得状況を分かりやすくしてもよい。
The mute button 20 is provided, for example, in a casing connected to the
ミュートボタン20が押された場合(ステップS2,Yes)、録音及び録画が一時停止(オプトアウト)される(ステップS3)。例えば、会議出席者が機密情報を話し始めるときにミュートボタン20が押されることにより、ミュート制御部14は、録音停止指令を生成して、開始/終了制御部10に入力する。録音停止指令を入力した開始/終了制御部10は、マイク50からの音声データの記録制御部12への送信を停止することで、機密情報の録音を停止する。これにより、機密性の高い音声データが記録されず、機密情報の漏洩を効果的に防止できる。
When the mute button 20 is pressed (step S2, Yes), audio recording is temporarily stopped (opt out) (step S3). For example, when the mute button 20 is pressed when a conference attendee starts speaking confidential information, the
なお、開始/終了制御部10は、録音停止指令を入力したとき、音声データと共に、撮像データの記録制御部12への送信を停止してもよい。この構成により、機密性の高い撮像データも記録されず、機密情報の漏洩をより一層効果的に防止できる。
Note that the start/
ミュート制御部14は、以下のように構成してもよい。例えば、会議出席者が機密情報を話し始めた後に、ミュートボタン20が押されることにより、ミュート制御部14は、ミュートボタン20が押された時点から、予め設定された所定時間(例えば数秒~数十秒)遡った時点までに、録音された音声データを消去する消去指令を生成して、記録制御部12に入力する。
The
当該消去指令を入力した記録制御部12は、記録部13に時系列順に記録された音声データの内、上記所定時間に対応する音声データを消去する。またミュート制御部14は、消去指令を生成すると同時に、録音停止指令を生成して、開始/終了制御部10に入力することで、音声データの記録制御部12への送信を停止させる。これにより、例えば、機密性の高い音声データが一時的に記録された場合でも、その場で機密情報を消去できる。また、機密情報以外の音声が録音されている場合でも、自動議事録作成などに不要な録音内容であるときには、その部分を消去できるため、クラウドサーバ200の処理負担を軽減できる。
The
なお、記録制御部12は、消去指令を入力したときに、音声データだけでなく、上記所定時間に対応する撮像データを記録制御部12から消去してもよい。この構成により、機密性の高い音声データ及び撮像データが一時的に記録された場合でも、その場で機密情報を消去でき、機密情報の漏洩をより一層効果的に防止できる。また記録部13のリソースを有効に利用できる。また、機密性を確保しながら、音声認識エンジン201の性能向上に最も寄与する機械学習のための音声データと撮像データを大量に取得できる。
Note that the
なお、ミュート制御部14は、ミュートボタン20が押された場合、例えば、図8Bに示すように、テレビ会議システムの表示器に表示されていた会議中の画像を、非表示状態にさせるように構成してもよい。この構成により、機密情報が話されていても、外部にその内容が漏洩することを防止できる。なお、ミュートボタン20が再び押されることにより、録音及び録画が再開されるため、テレビ会議システムの表示器には、会議中の画像を再び表示状態される。
Note that, when the mute button 20 is pressed, the
ミュート制御部14は、音声データ及び撮像データの一部を消去する機能を、有効にするか無効にするかを選択できるように構成してもよい(ステップS4)。例えば、当該機能が無効となるように選択された場合(ステップS4,No)、ステップS6の処理が実行される。当該機能が有効となるように選択された場合(ステップS4,Yes)、ステップS5の処理、すなわちデータ削除(データ消去)が実行される。
The
ステップS6において、同期制御部11は、複数の音声検出部のそれぞれで検出される音声データを同期させる制御を行う。なお、ステップS6の処理はステップS1とステップS2の間に実行されてもよい。図9A及び図9Bを参照して、同期制御部11における同期制御方法を具体的に説明する。
In step S6, the
図9Aは複数のマイクが配置された状態を模式的に示す図である。図9Aに示す(1)~(6)の符号は、第1マイク(1)、第2マイク(2)、第3マイク(3)、第4マイク(4)、第5マイク(5)及び第6マイク(6)を表す。これらの各マイクは、配置位置と向きが互いに異なる。また、これらの各マイクは、会議室のテーブルを中心に配置されるため、テーブルの周囲に存在する会議出席者から各マイクまでの距離が比較的遠くなる。 FIG. 9A is a diagram schematically showing a state in which a plurality of microphones are arranged. The symbols (1) to (6) shown in FIG. 9A are the first microphone (1), the second microphone (2), the third microphone (3), the fourth microphone (4), the fifth microphone (5), and Represents the sixth microphone (6). Each of these microphones has a different arrangement position and orientation. Furthermore, since each of these microphones is arranged around the table in the conference room, the distance from each microphone to the conference attendees around the table is relatively long.
図9Bは複数のマイクのそれぞれで取得された音声データの一例を示す図である。図9Bには、図9Aに示す複数のマイクの内、第2マイク(2)、第3マイク(3)、及び第4マイク(4)のそれぞれで検出された、特定の人の発話内容を表す音声データが示される。これらの音声データは、特定の人の発話内容を表すが、互いの波形が僅かに異なる。第1の原因は、各マイクの配置位置と向きが異なることである。第2の原因は、会議出席者から各マイクまでの距離が比較的遠いため、特定の人から発せられた声が、会議室100の壁に反射してからマイクに届く場合と直接マイクに届く場合があり、マイクへの音声の残響に差が生じることである。
FIG. 9B is a diagram showing an example of audio data acquired by each of a plurality of microphones. FIG. 9B shows the utterance content of a specific person detected by each of the second microphone (2), third microphone (3), and fourth microphone (4) among the plurality of microphones shown in FIG. 9A. The voice data represented is shown. These voice data represent the content of a specific person's utterances, but their waveforms are slightly different. The first cause is that the positions and orientations of the microphones are different. The second reason is that the distance from conference participants to each microphone is relatively long, so the voice emitted by a specific person may be reflected off the walls of the
従って、例えば、第2マイク(2)で取得される当該特徴点の音圧レベルは、第3マイク(3)で取得される音声の当該特徴点の音圧レベルと異なることもある。 Therefore, for example, the sound pressure level of the feature point obtained by the second microphone (2) may be different from the sound pressure level of the feature point of the sound obtained by the third microphone (3).
そのため、同一の人が発した音声であっても、図9Bに示すように、各マイクで検出される音声データの波形は僅かに相違する。同期制御部11は、このように波形が僅かに相違する複数の音声データの取得のタイミングを一致させる。
Therefore, even if the voice is uttered by the same person, the waveform of the voice data detected by each microphone is slightly different, as shown in FIG. 9B. The
また、同期制御部11は、第3マイク(3)と第4マイク(4)との間でも同様の処理を行う。この結果、特定の特徴点のタイミングを各マイクで相互に合わせることができ、音声の特徴点が抽出されたタイミングを合わせてクラウドサーバ200に入力することができる。その結果、音声認識の精度を効率的に向上できる。
Furthermore, the
なお、同期制御部11は、複数のマイク50で取得される音声を同期させるだけでなく、1又は複数のカメラ51での撮像も、同様の方法で同期させてもよい。これにより、機械読唇における機械学習の教師ラベルを音声認識と共通化でき、低コストで効率的に音声認識と機械読唇の機械学習を進めることができる。
Note that the
次に図10を参照して、教師ラベルについて説明する。前述したように、複数のマイク50の配置位置や向きが異なる場合、特定の人の発話内容に対応する音声データの波形、及び音声の特徴量は、相互に相違する。このように、音声データの波形や音声の特徴量が相違する場合でも、それに対する発話の内容は同じである。そこで、特定の発話内容に対応する複数の音声データに対して、図10に示すような、1つの教師ラベルを共用して機械学習(ステップS7)を行うことによって、1つのマイク50と1つの教師ラベルで機械学習を行う場合に比べて、音声認識の精度を効率的に向上できる。
Next, referring to FIG. 10, teacher labels will be explained. As described above, when the positions and orientations of the plurality of
教師ラベルは、例えば図10に示す「発話No」が「0001」の「あらゆる現実をすべて自分のほうへねじ曲げたのだ。」という発話内容(ラベル)である。図10には、これ以外にも、複数の教師ラベルの例が示される。「カメラID」は、複数のカメラ51のそれぞれを識別する番号である。「話者ID」は、発話する人と個別に特定する番号である。その他、「性別ID」、発話が開始された時間を表す「開始時間」、発話が終了した時間を表す「終了時間」などが対応付けられている。図10に示す複数の教示ラベルは「発話No」、「カメラID」、「話者ID」などに対応付けられて、クラウドサーバ200のメモリに記憶されている。なお教師ラベルの内容は図示例に限定されるものではない。
The teacher label is, for example, the utterance content (label) shown in FIG. 10, with the ``utterance number'' being ``0001'' and ``I have twisted all reality to my side.'' FIG. 10 also shows examples of a plurality of teacher labels. “Camera ID” is a number that identifies each of the plurality of
なお、教師ラベルは、音声データを聴いて人手で書き起こしやタイムスタンプを行い、それを学習に用いるか、あるいは既存の音声認識エンジン201から出力されたテキスト(音声認識の出力)のうち、確信度の高い出力結果を教師ラベルとして抽出する方法がある。前者の人手によって全ての教師ラベルを作成し、機械学習を行う方法は教師あり学習と称され、後者の人手を介さず、確信度の高い出力結果を教師ラベルとして利用する方法は半教師あり学習と称される。本実施の形態に係る音声認識システム300において、半教師あり学習を行う場合、複数のマイク50で取得した音声データによる認識結果がいずれも同じ内容だった場合、確信度が高いと見なし、それを教師ラベルとして用いることが考えられる。
The teacher labels can be created by listening to the audio data and manually transcribing and time stamping it and using it for learning, or from the text output from the existing speech recognition engine 201 (speech recognition output) with confidence. There is a method of extracting output results with a high degree of accuracy as teacher labels. The former method of creating all teacher labels manually and performing machine learning is called supervised learning, and the latter method of using output results with high confidence as teacher labels without human intervention is semi-supervised learning. It is called. When performing semi-supervised learning in the
図11は統合器の動作を説明するための図である。図11の縦軸は確信度、横軸は時間である。統合器203における結合方法は様々あるが、その一例を説明する。音声認識器201bの出力(例えば音声に対応する文字情報)について、図中の符号(1)及び(2)で示す区間のように、確信度が閾値よりも僅かに低いため、又は確信度が閾値よりも大幅に低いために、音声を認識できていない場合、これらの区間で統合器203は、機械読唇器202bの出力を採用する。一方、音声認識の確信度が閾値以上の場合、統合器203は、音声認識器201bの出力を採用し、機械読唇器の出力は採用しない。これは、本質的に、現状の機械読唇の精度は音声認識よりも劣るためである。
FIG. 11 is a diagram for explaining the operation of the integrator. The vertical axis in FIG. 11 is confidence level, and the horizontal axis is time. There are various methods of combining in the
以上に説明したように本実施の形態に係る音声認識装置は、複数の音声を検出する音声検出部と、複数の音声の内容を示すデータである音声データを同期させる制御を行う同期制御部と、を備え、同期された複数の音声データを音声認識エンジンの機械学習に用いるように構成されている。この構成により、口元からマイクまでの距離が遠いため音声認識が難しい会議などにおいても、音声認識エンジン201の性能向上に最も寄与する機械学習のための音声データを同期させた上で取得できる。
As described above, the speech recognition device according to the present embodiment includes a speech detection section that detects a plurality of speech sounds, and a synchronization control section that performs control to synchronize the speech data that is data indicating the contents of the plurality of speech sounds. , and is configured to use a plurality of synchronized voice data for machine learning of a voice recognition engine. With this configuration, it is possible to synchronize and acquire voice data for machine learning, which contributes most to improving the performance of the
なお、音声認識用にマイクアレイとして、発話者を検出し、その発話者の音声を強調するビームフォーミングが知られている。このビームフォーミングで会議音声をクリアに変換するには、煩雑な信号処理を必要とするため、音声認識装置が非常に高価になるほか、その会議の素の収音環境とは異なるように加工されてしまうため、素の収音環境に近い本質的な機械学習を行うことができない。 Note that beam forming, which detects a speaker and emphasizes the voice of the speaker, is known as a microphone array for voice recognition. Converting conference audio clearly using beamforming requires complicated signal processing, which makes voice recognition equipment very expensive, and it is also processed to differ from the original sound recording environment of the conference. Therefore, it is not possible to perform essential machine learning that is close to the original sound collection environment.
これに対し本実施の形態に係る音声認識装置によれば、ビームフォーミングを利用せずに複数の音声データを同期させて機械学習に利用でるため、煩雑な信号処理が不要になる。従って、音声取得装置の製造コストの上昇を抑制しながら音声認識精度を大幅に向上できる。 On the other hand, according to the speech recognition device according to the present embodiment, multiple pieces of speech data can be synchronized and used for machine learning without using beamforming, so complicated signal processing is not necessary. Therefore, it is possible to significantly improve speech recognition accuracy while suppressing an increase in the manufacturing cost of the speech acquisition device.
また会議での高い音声認識精度を優先し、複数の会議出席者のそれぞれにヘッドセット、ピンマイクなどを装着させる手段もある。しかしながら、特に女性は、ヘッドセットやピンマイクの使い回しによる不衛生さを嫌がる場合がある。 There is also a method of prioritizing high speech recognition accuracy in a conference and having multiple conference attendees each wear a headset, pin microphone, or the like. However, women in particular may dislike the unsanitary nature of using headsets and pin microphones over and over again.
これに対し本実施の形態に係る音声認識装置によれば、ヘッドセットなどを利用しなくとも、会議での高い音声認識精度を確保できるため、ヘッドセットなどを装着する煩わしさを軽減できる。また、ヘッドセットなどを装着することによる不快な体験を感じさせることもない。 On the other hand, according to the voice recognition device according to the present embodiment, high voice recognition accuracy can be ensured in a meeting without using a headset or the like, so the troublesomeness of wearing a headset or the like can be reduced. Furthermore, the user does not experience any discomfort caused by wearing a headset or the like.
また特許文献1に開示される従来技術は、人型ロボットの筐体が利用されているため、その態様によって会議参加者は会議に集中できなくなり、特に小さな会議室では、圧迫感を与え得る。
Furthermore, since the conventional technology disclosed in
これに対し本実施の形態に係る音声認識装置によれば、図2Aに示すように卓上照明スタンドに似たシンプルな外観形状であるため、会議参加者に圧迫感を与え得ることがなく、会議への集中が阻害されることを防止できる。 On the other hand, according to the voice recognition device according to the present embodiment, as shown in FIG. 2A, it has a simple external shape resembling a tabletop lighting stand, so that it does not give a feeling of pressure to the conference participants. This will prevent your concentration from being hindered.
また本実施の形態に係る音声認識装置は、複数の音声データを記録する記録部を備えるように構成してもよい。この構成により、通信障害などでクラウドサーバがリアルタイムに音声データなどを受信できない場合についても、記録部に記憶された音声データをクラウドサーバにアップロードすることで、音声データを利用した機械学習を継続できる。 Further, the speech recognition device according to the present embodiment may be configured to include a recording unit that records a plurality of pieces of speech data. With this configuration, even if the cloud server is unable to receive voice data in real time due to communication failure, etc., machine learning using voice data can be continued by uploading the voice data stored in the recording unit to the cloud server. .
また本実施の形態に係る音声認識装置は、外部機器との間で複数の音声データの通信を行う通信制御部を備えるように構成してもよい。この構成により、通信制御部を通じてホワイトボードやクラウドサーバなどの外部機器へ複数の音声データを送信できるため、GPUのように高価のプロセッサを音声認識装置に搭載しなくとも、外部機器において音声データを利用した機械学習を実現できる。従って、音声認識装置の生産台数が増えても、システム全体でのコストの上昇を抑制できると共に、クラウドサーバなどの外部機器で大量のデータを活用して機械学習を行うことにより、音声認識精度を大幅に向上できる。 Further, the speech recognition device according to the present embodiment may be configured to include a communication control unit that communicates a plurality of speech data with an external device. With this configuration, multiple pieces of audio data can be sent to external devices such as whiteboards and cloud servers through the communication control unit, so voice data can be sent to external devices without having to install an expensive processor like a GPU in the speech recognition device. It is possible to realize machine learning using Therefore, even if the production volume of speech recognition devices increases, it is possible to suppress the increase in the cost of the entire system, and by performing machine learning using large amounts of data on external devices such as cloud servers, speech recognition accuracy can be improved. It can be significantly improved.
また本実施の形態に係る音声認識装置は、録音を一時停止するミュート制御部を備えるように構成してもよい。会議で発言される内容には機密性の高い情報を多く含むため、録音できない場合が生じるが、ミュート制御部を備えることにより、録音を停止できる。従って、発言をためらうことなく会議に参加でき、結果的に有効な音声データを大量に集めることができる。従って、文法から逸脱したインフォーマルな発話に対する訓練が進み、音声認識精度を高めることができる。 Furthermore, the speech recognition device according to this embodiment may be configured to include a mute control section that temporarily stops recording. Because much of what is said at a meeting includes highly confidential information, there may be times when it is not possible to record it, but by providing a mute control unit, recording can be stopped. Therefore, the user can participate in the conference without hesitating to speak, and as a result, a large amount of useful audio data can be collected. Therefore, training for informal utterances that deviate from grammar progresses, and speech recognition accuracy can be improved.
また本実施の形態に係る音声認識装置は、複数の音声検出部のそれぞれの配置位置が互いに異なり、又は複数の音声検出部のそれぞれの向きが互いに異なるように構成してもよい。この構成により、複数チャンネルの音声を同時に取得できると共に、複数の会議出席者がテーブルを囲むように存在する場合でも、それぞれの会議出席者と向き合うように個々の音声検出部が配置される形となるため、音声検出部からそれぞれの会議出席者までの距離を短くでき、S/N比の高い明瞭な音声が入力できる。 Further, the speech recognition device according to the present embodiment may be configured such that the plurality of speech detection sections are arranged in different positions, or the plurality of speech detection sections are arranged in different directions. With this configuration, audio from multiple channels can be acquired simultaneously, and even when multiple conference attendees are present around a table, each audio detection unit can be placed to face each conference attendee. Therefore, the distance from the audio detection unit to each conference attendee can be shortened, and clear audio with a high S/N ratio can be input.
また本実施の形態に係る音声認識装置は、撮像部を備え、撮像部で撮像されたデータである撮像データを、機械読唇器の機械学習に用いるように構成してもよい。この構成により、音声認識エンジンの機械学習結果に、機械読唇の機械学習結果を利用できるため、会議での音声認識精度をより一層高めることができる。 Further, the speech recognition device according to the present embodiment may be configured to include an imaging section and use imaging data, which is data captured by the imaging section, for machine learning of a mechanical lip reader. With this configuration, the machine learning results of machine lip reading can be used as the machine learning results of the voice recognition engine, so it is possible to further improve the accuracy of voice recognition in meetings.
また本実施の形態に係る音声認識装置は、音声認識エンジンの機械学習の結果に応じて、機械読唇の機械学習の結果を採用し又は採用しない統合器を備えるように構成してもよい。この構成により、正しく音声認識できている場合には音声認識エンジンの機械学習の結果を優先させ、正しく音声を認識できていない場合には機械読唇器の出力を採用できるため、より精度の高い音声認識が実現できる。 Further, the speech recognition device according to the present embodiment may be configured to include an integrator that adopts or does not adopt the results of machine learning of machine lip reading, depending on the results of machine learning of the speech recognition engine. With this configuration, if the voice is correctly recognized, the machine learning results of the voice recognition engine are prioritized, and if the voice is not recognized correctly, the output of the machine lip reader can be used, which allows for more accurate voice. Recognition can be achieved.
また本実施の形態に係る情報処理方法では、音声認識装置が、音声検出部で取得された複数の音声の内容を示すデータである音声データを同期させる制御を行い、サーバが、同期された複数の音声データを音声認識エンジンの機械学習に用いる。 Further, in the information processing method according to the present embodiment, the speech recognition device performs control to synchronize the audio data, which is data indicating the contents of a plurality of voices acquired by the speech detection unit, and the server controls the synchronized plurality of voices. The voice data is used for machine learning of the voice recognition engine.
また本実施の形態に係る情報処理プログラムは、音声認識装置に、音声検出部で取得された複数の音声の内容を示すデータである音声データを同期させる制御を行わせ、サーバに、同期された複数の音声データを用いて音声認識エンジンの機械学習を行わせる。 Further, the information processing program according to the present embodiment causes the speech recognition device to perform control to synchronize audio data, which is data indicating the contents of a plurality of sounds acquired by the audio detection unit, and causes the server to perform control to synchronize audio data that is data indicating the content of a plurality of sounds acquired by the audio detection unit. Perform machine learning on a speech recognition engine using multiple pieces of speech data.
1 :音声取得装置
1a :台座部
1b :延伸部
1c :ユニット設置部
2 :筐体部
10 :終了制御部
11 :同期制御部
12 :記録制御部
13 :記録部
14 :ミュート制御部
15 :通信制御部
20 :ミュートボタン
31,32,33,34,35,36 :会議出席者
50,50-1,50-n :マイク
51,51-1,51-2,50-n :カメラ
100 :会議室
101 :CPU
102 :ROM
103 :RAM
104 :入力装置
105 :通信インタフェース
106 :バス
110 :テーブル
120 :ホワイトボード
200 :クラウドサーバ
201 :音声認識エンジン
201a :音声特徴量抽出部
201b :音声認識器
202 :読唇処理部
202a :画像特徴量抽出部
202b :機械読唇器
203 :統合器
210 :プロセッサ
220 :メモリ
230 :入出力インタフェース
240 :バス
300 :音声認識システム
301 :通信ネットワーク
1: Audio acquisition device 1a: Pedestal section 1b: Extension section 1c: Unit installation section 2: Housing section 10: Termination control section 11: Synchronization control section 12: Recording control section 13: Recording section 14: Mute control section 15: Communication Control unit 20:
102:ROM
103: RAM
104: Input device 105: Communication interface 106: Bus 110: Table 120: Whiteboard 200: Cloud server 201:
Claims (12)
前記音声取得装置は、
複数の音声を検出する音声検出部と、
複数の前記音声の内容を示すデータである音声データを同期させる制御を行う同期制御部と、
を備え、
前記サーバは、
同期された複数の前記音声データに対して、教師ラベルを共用して音声認識エンジンの機械学習を行い、音声を認識する
音声認識システム。 A voice recognition system comprising a voice acquisition device and a server,
The audio acquisition device includes:
a voice detection unit that detects multiple voices;
a synchronization control unit that performs control to synchronize audio data that is data indicating the content of the plurality of audios;
Equipped with
The server is
The voice recognition engine performs machine learning on the multiple synchronized voice data using shared teacher labels to recognize voice.
Voice recognition system .
複数の前記音声データを記録する記録部を備える請求項1に記載の音声認識システム。 The audio acquisition device includes:
The voice recognition system according to claim 1, further comprising a recording unit that records a plurality of said voice data.
外部機器との間で複数の前記音声データの通信を行う通信制御部を備える請求項1又は2に記載の音声認識システム。 The audio acquisition device includes:
The voice recognition system according to claim 1 or 2, further comprising a communication control unit that communicates a plurality of the voice data with an external device.
複数の前記音声の録音を一時停止するミュート制御部を備える請求項1から3の何れか一項に記載の音声認識システム。 The audio acquisition device includes:
The voice recognition system according to any one of claims 1 to 3, further comprising a mute control unit that temporarily stops recording of the plurality of voices.
撮像部を備え、
前記撮像部で撮像されたデータである撮像データを、機械読唇の機械学習に用いる請求項1から6の何れか一項に記載の音声認識システム。 The audio acquisition device includes:
Equipped with an imaging unit,
The voice recognition system according to any one of claims 1 to 6, wherein imaged data, which is data imaged by the imaging unit, is used for machine learning of machine lip reading.
前記音声認識エンジンの機械学習の結果に応じて、前記機械読唇の機械学習の結果を採用し又は採用しない統合器を備える請求項7に記載の音声認識システム。 The server is
The speech recognition system according to claim 7, further comprising an integrator that adopts or does not adopt the machine learning result of the machine lip reading depending on the machine learning result of the speech recognition engine.
撮像部を備え、
前記同期制御部は、前記音声データに前記撮像部で撮像された画像の内容を示すデータである撮像データを同期させる制御を行い、
前記サーバは、
同期された複数の前記音声データ及び前記撮像データに対して、教師ラベルを共用して音声認識エンジンの機械学習を行い、音声を認識する請求項1から9の何れか一項に記載の音声認識システム。 The audio acquisition device includes:
Equipped with an imaging unit,
The synchronization control unit performs control to synchronize the audio data with imaging data that is data indicating the content of an image captured by the imaging unit,
The server is
Speech recognition according to any one of claims 1 to 9, wherein machine learning of a speech recognition engine is performed on a plurality of the synchronized audio data and the imaged data by sharing a teacher label to recognize speech. system .
撮像部を備え
前記音声データ及び前記撮像部で撮像されたデータである撮像データに対して、同一の教師ラベルを用いて機械学習を行い、音声を認識する請求項1から10の何れか一項に記載の音声認識システム。 The audio acquisition device includes:
Any one of claims 1 to 10, comprising an imaging unit, and performs machine learning on the audio data and the imaging data that is data captured by the imaging unit using the same teacher label to recognize audio. The speech recognition system described in Section.
前記音声取得装置が、音声検出部で複数の音声を検出し、
前記音声取得装置が、前記音声検出部で取得された複数の音声の内容を示すデータである音声データを同期させる制御を行い、
前記サーバが、同期された複数の前記音声データに対して教師ラベルを共用して音声認識エンジンの機械学習を行い、音声を認識する情報処理方法。 An information processing method performed by a speech recognition system comprising a speech acquisition device and a server, the method comprising:
The voice acquisition device detects a plurality of voices with a voice detection unit,
The audio acquisition device performs control to synchronize audio data that is data indicating the content of a plurality of audios acquired by the audio detection unit,
An information processing method in which the server performs machine learning on a speech recognition engine by sharing teacher labels for a plurality of synchronized speech data to recognize speech .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019203340A JP7400364B2 (en) | 2019-11-08 | 2019-11-08 | Speech recognition system and information processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019203340A JP7400364B2 (en) | 2019-11-08 | 2019-11-08 | Speech recognition system and information processing method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021076715A JP2021076715A (en) | 2021-05-20 |
JP7400364B2 true JP7400364B2 (en) | 2023-12-19 |
Family
ID=75897980
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019203340A Active JP7400364B2 (en) | 2019-11-08 | 2019-11-08 | Speech recognition system and information processing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7400364B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113742517B (en) * | 2021-08-11 | 2022-09-27 | 北京百度网讯科技有限公司 | Voice packet generation method and device, electronic equipment and storage medium |
CN115881129B (en) * | 2023-03-09 | 2023-05-09 | 绵阳师范学院 | Robot voice recognition system and application method thereof |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000352996A (en) | 1999-03-26 | 2000-12-19 | Canon Inc | Information processing device |
JP2004084187A (en) | 2002-08-23 | 2004-03-18 | Natl Inst For Land & Infrastructure Management Mlit | Collision prevention fence for pole and the like |
JP2007052859A (en) | 2005-08-18 | 2007-03-01 | Sony Corp | Data recorder |
JP2018013549A (en) | 2016-07-19 | 2018-01-25 | 株式会社デンソー | Speech content recognition device |
-
2019
- 2019-11-08 JP JP2019203340A patent/JP7400364B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000352996A (en) | 1999-03-26 | 2000-12-19 | Canon Inc | Information processing device |
JP2004084187A (en) | 2002-08-23 | 2004-03-18 | Natl Inst For Land & Infrastructure Management Mlit | Collision prevention fence for pole and the like |
JP2007052859A (en) | 2005-08-18 | 2007-03-01 | Sony Corp | Data recorder |
JP2018013549A (en) | 2016-07-19 | 2018-01-25 | 株式会社デンソー | Speech content recognition device |
Also Published As
Publication number | Publication date |
---|---|
JP2021076715A (en) | 2021-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11023690B2 (en) | Customized output to optimize for user preference in a distributed system | |
US10878824B2 (en) | Speech-to-text generation using video-speech matching from a primary speaker | |
US9293133B2 (en) | Improving voice communication over a network | |
WO2020222928A1 (en) | Synchronization of audio signals from distributed devices | |
JP6819672B2 (en) | Information processing equipment, information processing methods, and programs | |
CN112074901A (en) | Speech recognition login | |
EP3963576A1 (en) | Speaker attributed transcript generation | |
WO2020222930A1 (en) | Audio-visual diarization to identify meeting attendees | |
EP3963579A1 (en) | Processing overlapping speech from distributed devices | |
WO2020222921A1 (en) | Audio stream processing for distributed device meeting | |
WO2019206186A1 (en) | Lip motion recognition method and device therefor, and augmented reality device and storage medium | |
CN110874137A (en) | Interaction method and device | |
WO2016187910A1 (en) | Voice-to-text conversion method and device, and storage medium | |
WO2020057102A1 (en) | Speech translation method and translation device | |
JP7279494B2 (en) | CONFERENCE SUPPORT DEVICE AND CONFERENCE SUPPORT SYSTEM | |
JP7400364B2 (en) | Speech recognition system and information processing method | |
JP2023548157A (en) | Other speaker audio filtering from calls and audio messages | |
WO2020222931A1 (en) | Distributed device meeting initiation | |
Gogate et al. | Av speech enhancement challenge using a real noisy corpus | |
TWI769520B (en) | Multi-language speech recognition and translation method and system | |
Panek et al. | Challenges in adopting speech control for assistive robots | |
JP2020067562A (en) | Device, program and method for determining action taking timing based on video of user's face | |
CN112420046A (en) | Multi-person conference method, system and device suitable for hearing-impaired people to participate | |
JP7000547B1 (en) | Programs, methods, information processing equipment, systems | |
US20230267942A1 (en) | Audio-visual hearing aid |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220914 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230621 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230627 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230814 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231107 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231120 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7400364 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |