JP2019185005A - 音声認識テキストデータ出力制御装置、音声認識テキストデータ出力制御方法、及びプログラム - Google Patents
音声認識テキストデータ出力制御装置、音声認識テキストデータ出力制御方法、及びプログラム Download PDFInfo
- Publication number
- JP2019185005A JP2019185005A JP2018206726A JP2018206726A JP2019185005A JP 2019185005 A JP2019185005 A JP 2019185005A JP 2018206726 A JP2018206726 A JP 2018206726A JP 2018206726 A JP2018206726 A JP 2018206726A JP 2019185005 A JP2019185005 A JP 2019185005A
- Authority
- JP
- Japan
- Prior art keywords
- data
- text data
- output
- output control
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 47
- 238000012545 processing Methods 0.000 claims description 67
- 230000006870 function Effects 0.000 claims description 14
- 230000003111 delayed effect Effects 0.000 claims description 11
- 238000004458 analytical method Methods 0.000 claims description 10
- 230000000877 morphologic effect Effects 0.000 claims description 6
- 230000010365 information processing Effects 0.000 description 65
- 238000010586 diagram Methods 0.000 description 23
- 230000005540 biological transmission Effects 0.000 description 12
- 238000012937 correction Methods 0.000 description 4
- 238000003672 processing method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000001915 proofreading effect Effects 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
Description
図3及び図4を参照して、出力制御処理としての、テキストデータの出力タイミング及び音声データの出力タイミングの制御処理を説明する。図3は、本発明の第1実施形態に係るデータ出力制御処理の一例を示すフローチャートである。
情報処理装置1は、音声データを入力する。例えば、記者会見、撮影、街頭インタビュー等の音声を不図示のマイクロフォン等でデジタルデータである音声データに変換することにより取得し、当該音声データを情報処理装置1に入力してもよい。また、情報処理装置1は、音声認識処理に先立って、音声付き動画又は静止画から音声データを分離して記録してもよい。例えば、音声付き動画を低画質動画と音声データとに分離する。低画質動画は、図2に示す記録部35に動画データとして記録される。出力制御部333は、動画データを、音声データ、テキストデータ、及び時刻データと関連づけながら出力タイミングを制御した上で、後述する図7に示す画面G1において出力するように制御する。
図2に示す音声認識テキストデータ出力制御サーバ3の送受信部31は、情報処理装置1から送信された音声データを取得する。
図2に示す音声認識テキストデータ出力制御サーバ3の音声データ分割部331は、情報処理装置1から送信された音声データを分割する。音声データ分割部331は、例えば、音声データにおける無音区間を特定し、当該区間において音声データを区切る処理を実行してもよい。音声データ分割部331は、例えば、音声データにおける文章構成や文脈等に基づいて、音声データを分割するルールを作成し、当該ルールに基づいて分割処理を実行してもよい。
送受信部31は、音声データ分割部331により分割された音声データを音声認識処理サーバ5に送信する。
音声認識処理サーバ5は、音声認識テキストデータ出力制御サーバ3において分割された音声データを音声認識する。音声認識処理サーバ5は、例えば、未知のパラメータに従って確率的に変化する現象をモデル化する分析技術手法であるHMM(Hidden Markov Model)(隠れマルコフモデル)により、入力された音声データを文字列データに変換する。なお、他の分析技術手法として、DPマッチングやニューラルネットワーク等を採用してもよい。
音声認識処理サーバ5は、音声認識した結果であるテキストデータを音声認識テキストデータ出力制御サーバ3に送信する。
図2に示す音声認識テキストデータ出力制御サーバ3の出力制御部333は、音声認識処理サーバ5において音声認識された結果であるテキストデータの出力タイミングよりも、情報処理装置1において、当該テキストデータに対応する分割された音声データの出力タイミングを遅らせるように制御する。例えば、出力制御部333は、制御信号を情報処理装置1に送信することで情報処理装置1の出力処理を制御する。
図3に戻り、情報処理装置1は、制御信号に基づいて、音声データ及びテキストデータを、不図示の情報処理装置1の表示部において出力する。ここで、制御信号は、出力対象である音声データ及びテキストデータを含む信号であってもよいし、音声データ及びテキストデータを含まない信号であってもよい。
図2に示す音声認識テキストデータ出力制御サーバ3の出力制御部333は、音声データ及びテキストデータを情報処理装置1において出力させるように制御する。例えば、出力制御部333は、制御信号を情報処理装置1に送信することで情報処理装置1の出力処理を制御する。ここで、本ステップにおいては、必ずしも、音声認識処理サーバ5において音声認識された結果であるテキストデータの出力タイミングよりも、図1に示す情報処理装置1において、当該テキストデータに対応する分割された音声データの出力タイミングを遅らせるように制御する必要はない。つまり、図5に示すテキストデータの出力再開処理は、図3に示すデータ出力制御処理を前提とする処理でなくてもよい。しかしながら、これに限られず、図5に示すテキストデータの出力再開処理は、図3に示すデータ出力制御処理を前提とする処理であってもよい。
情報処理装置1は、音声認識テキストデータ出力制御サーバ3から送信された制御信号に基づいて、音声データ及びテキストデータを、不図示の情報処理装置1の表示部において出力する。
情報処理装置1において、ユーザの操作に基づいてテキストデータを出力及び音声データを再生停止する場合、情報処理装置1は、音声認識テキストデータ出力制御サーバ3に対して出力停止信号を送信する。
情報処理装置1において、ユーザの操作に基づいてテキストデータの出力及び音声データの再生が再開される場合、情報処理装置1は、音声認識テキストデータ出力制御サーバ3に対して出力再開信号を送信する。
出力制御部333は、ステップS37において音声データの再生が一旦停止された後、ステップS39において再開される場合、音声データの再生が停止された時点から所定期間遡った時点から音声データの再生が再開されるように制御する。例えば、出力制御部333は、制御信号を情報処理装置1に送信することで情報処理装置1の出力再生処理を制御する。
情報処理装置1は、音声認識テキストデータ出力制御サーバ3から送信された制御信号に基づいて、音声データ及びテキストデータを、不図示の情報処理装置1の表示部において出力または再生する。
図8から図10を参照して、本発明の第2実施形態に係るデータ出力制御処理を説明する。図8は、本発明の第2実施形態に係る情報処理システムの概略構成(システム構成)の他の一例を示す図である。第2実施形態においては、図8に示すように、情報処理システム100において複数の音声認識処理サーバ5A,5B,5Cを備えるが、図1に示すように、第1実施形態においては、図1に示すように、情報処理システム100において単一の音声認識処理サーバ5を備える点で第2実施形態と第1実施形態とは異なる。以下では、第2実施形態と第1実施形態とで異なる点について特に説明する。
本発明の一態様に係る音声認識テキストデータ出力制御装置は、音声データ及び音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御装置であって、音声データを取得する音声データ取得部と、取得された音声データを分割して音声認識させて、音声認識させた結果であるテキストデータを取得するテキストデータ取得部と、取得したテキストデータの出力タイミングよりも、当該テキストデータに対応する分割された音声データの出力再生タイミングを遅らせるように制御する出力制御部と、を備え、出力制御部は、音声データの出力再生が一旦停止された後、再開される場合、音声データの出力再生が停止された時点から所定期間遡った時点から音声データの出力再生が再開されるように制御し、出力制御部は、音声データの出力再生が開始されてから音声データの出力再生が停止されるまでの期間が、所定の閾値を超えない場合は、所定期間が第1期間となるように調整し、音声データの出力再生が開始されてから音声データの出力再生が停止されるまでの期間が所定の閾値を超える場合は、所定期間が第1期間よりも長い第2期間となるように調整する。
本発明の一態様に係る音声認識テキストデータ出力制御装置は、音声データ及び音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御装置であって、音声データを取得する音声データ取得部と、取得された音声データを分割して音声認識させて、音声認識させた結果であるテキストデータを取得するテキストデータ取得部と、取得したテキストデータの出力タイミングよりも、当該テキストデータに対応する分割された音声データの出力再生タイミングを遅らせるように制御する出力制御部と、を備え、テキストデータ取得部は、取得された音声データを分割して、複数の音声認識処理サーバに並行して音声認識させて、音声認識させた結果であるテキストデータを複数の音声認識処理サーバの各々から取得し、複数の音声認識処理サーバから取得された複数のテキストデータを形態素解析することにより、複数の音声認識処理サーバの各々から取得された複数のテキストデータから一つを選択する選択部を更に備える。
本発明の一態様に係る音声認識テキストデータ出力制御方法は、音声データ及び音声データを音声認識させた結果であるテキストデータの出力制御をコンピュータが実行する音声認識テキストデータ出力制御方法であって、音声データを取得するステップと、取得された音声データを分割して音声認識させて、音声認識させた結果であるテキストデータを取得するステップと、取得したテキストデータの出力タイミングよりも、当該テキストデータに対応する分割された音声データの出力再生タイミングを遅らせるように制御するステップと、を含み、制御するステップは、音声データの出力再生が一旦停止された後、再開される場合、音声データの出力再生が停止された時点から所定期間遡った時点から音声データの出力再生が再開されるように制御し、制御するステップは、音声データの出力再生が開始されてから音声データの出力再生が停止されるまでの期間が、所定の閾値を超えない場合は、所定期間が第1期間となるように調整し、音声データの出力再生が開始されてから音声データの出力再生が停止されるまでの期間が所定の閾値を超える場合は、所定期間が第1期間よりも長い第2期間となるように調整する。
本発明の一態様に係る音声認識テキストデータ出力制御方法は、音声データ及び音声データを音声認識させた結果であるテキストデータの出力制御をコンピュータが実行する音声認識テキストデータ出力制御方法であって、音声データを取得する制御するステップと、取得された音声データを分割して音声認識させて、音声認識させた結果であるテキストデータを取得する制御するステップと、取得したテキストデータの出力タイミングよりも、当該テキストデータに対応する分割された音声データの出力再生タイミングを遅らせるように制御する制御するステップと、を含み、テキストデータを取得するステップは、取得された音声データを分割して、複数の音声認識処理サーバに並行して音声認識させて、音声認識させた結果であるテキストデータを複数の音声認識処理サーバの各々から取得し、複数の音声認識処理サーバから取得された複数のテキストデータを形態素解析することにより、複数の音声認識処理サーバの各々から取得された複数のテキストデータから一つを選択するステップを更に含む。
本発明の一態様に係るプログラムは、音声データ及び音声データを音声認識させた結果であるテキストデータの出力を制御するコンピュータを、音声データを取得する音声データ取得部と、取得された音声データを分割して音声認識させて、音声認識させた結果であるテキストデータを取得するテキストデータ取得部と、取得したテキストデータの出力タイミングよりも、当該テキストデータに対応する分割された音声データの出力再生タイミングを遅らせるように制御する出力制御部と、して機能させ、出力制御部は、音声データの出力再生が一旦停止された後、再開される場合、音声データの出力再生が停止された時点から所定期間遡った時点から音声データの出力再生が再開されるように制御し、出力制御部は、音声データの出力再生が開始されてから音声データの出力再生が停止されるまでの期間が、所定の閾値を超えない場合は、所定期間が第1期間となるように調整し、音声データの出力再生が開始されてから音声データの出力再生が停止されるまでの期間が所定の閾値を超える場合は、所定期間が第1期間よりも長い第2期間となるように調整する。
本発明の一態様に係るプログラムは、音声データ及び音声データを音声認識させた結果であるテキストデータの出力を制御するコンピュータを、音声データを取得する音声データ取得部と、取得された音声データを分割して音声認識させて、音声認識させた結果であるテキストデータを取得するテキストデータ取得部と、取得したテキストデータの出力タイミングよりも、当該テキストデータに対応する分割された音声データの出力再生タイミングを遅らせるように制御する出力制御部と、して機能させ、テキストデータ取得部は、取得された音声データを分割して、複数の音声認識処理サーバに並行して音声認識させて、音声認識させた結果であるテキストデータを複数の音声認識処理サーバの各々から取得し、複数の音声認識処理サーバから取得された複数のテキストデータを形態素解析することにより、複数の音声認識処理サーバの各々から取得された複数のテキストデータから一つを選択する選択部として更に機能させる。
Claims (8)
- 音声データ及び前記音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御装置であって、
音声データを取得する音声データ取得部と、
取得された前記音声データを分割して音声認識させて、音声認識させた結果であるテキストデータを取得するテキストデータ取得部と、
取得した前記テキストデータの出力タイミングよりも、当該テキストデータに対応する分割された前記音声データの出力再生タイミングを遅らせるように制御する出力制御部と、
を備える、
音声認識テキストデータ出力制御装置。 - 前記出力制御部は、前記テキストデータに含まれる文字数に基づいて、当該テキストデータに対応する分割された前記音声データを出力再生するタイミングを調整する、
請求項1に記載の音声認識テキストデータ出力制御装置。 - 前記出力制御部は、前記音声データの出力再生が一旦停止された後、再開される場合、前記音声データの出力再生が停止された時点から所定期間遡った時点から前記音声データの出力再生が再開されるように制御する、
請求項1又は2に記載の音声認識テキストデータ出力制御装置。 - 前記出力制御部は、前記音声データの出力再生が開始されてから当該音声データの出力再生が停止されるまでの期間が、所定の閾値を超えない場合は、前記所定期間が第1期間となるように調整し、当該音声データの出力再生が開始されてから当該音声データの出力再生が停止されるまでの期間が前記所定の閾値を超える場合は、前記所定期間が前記第1期間よりも長い第2期間となるように調整する、
請求項3に記載の音声認識テキストデータ出力制御装置。 - 前記音声データの入力時刻を示す時刻データと、当該音声データを音声認識させた結果である前記テキストデータと、を関連づけて記録する記録部を更に備え、
前記出力制御部は、前記入力時刻と前記テキストデータとが関連づけて出力されるように制御する、
請求項1から4のいずれか一項に記載の音声認識テキストデータ出力制御装置。 - 前記テキストデータ取得部は、取得された前記音声データを分割して、複数の音声認識処理サーバに並行して音声認識させて、音声認識させた結果であるテキストデータを前記複数の音声認識処理サーバの各々から取得し、
前記複数の音声認識処理サーバから取得された複数の前記テキストデータを形態素解析することにより、前記複数の音声認識処理サーバの各々から取得された複数のテキストデータから一つを選択する選択部を更に備える、
請求項1から5のいずれか一項に記載の音声認識テキストデータ出力制御装置。 - 音声データ及び前記音声データを音声認識させた結果であるテキストデータの出力制御をコンピュータが実行する音声認識テキストデータ出力制御方法であって、
音声データを取得するステップと、
取得された前記音声データを分割して音声認識させて、音声認識させた結果であるテキストデータを取得するステップと、
取得された前記テキストデータの出力タイミングよりも、当該テキストデータに対応する分割された前記音声データの出力再生タイミングを遅らせるように制御するステップと、
を含む、
音声認識テキストデータ出力制御方法。 - 音声データ及び前記音声データを音声認識させた結果であるテキストデータの出力を制御するコンピュータに、
音声データを取得する音声データ取得部と、
取得された前記音声データを分割して音声認識させて、音声認識させた結果であるテキストデータを取得するテキストデータ取得部と、
取得された前記テキストデータの出力タイミングよりも、当該テキストデータに対応する分割された前記音声データの出力再生タイミングを遅らせるように制御する出力制御部と
して機能させるプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018077656 | 2018-04-13 | ||
JP2018077656 | 2018-04-13 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6543755B1 JP6543755B1 (ja) | 2019-07-10 |
JP2019185005A true JP2019185005A (ja) | 2019-10-24 |
Family
ID=67212282
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018206726A Active JP6543755B1 (ja) | 2018-04-13 | 2018-11-01 | 音声認識テキストデータ出力制御装置、音声認識テキストデータ出力制御方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6543755B1 (ja) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06259832A (ja) * | 1993-03-03 | 1994-09-16 | Olympus Optical Co Ltd | 情報再生装置 |
JP2000214886A (ja) * | 1999-01-26 | 2000-08-04 | Olympus Optical Co Ltd | 音声情報再生装置 |
JP2004240920A (ja) * | 2003-02-10 | 2004-08-26 | Nippon Television Network Corp | 校正システム |
WO2008096582A1 (ja) * | 2007-02-06 | 2008-08-14 | Nec Corporation | 認識器重み学習装置および音声認識装置、ならびに、システム |
JP2009182473A (ja) * | 2008-01-29 | 2009-08-13 | Kyocera Corp | コンテンツ再生装置 |
JP2013218095A (ja) * | 2012-04-09 | 2013-10-24 | Clarion Co Ltd | 音声認識サーバ統合装置および音声認識サーバ統合方法 |
-
2018
- 2018-11-01 JP JP2018206726A patent/JP6543755B1/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06259832A (ja) * | 1993-03-03 | 1994-09-16 | Olympus Optical Co Ltd | 情報再生装置 |
JP2000214886A (ja) * | 1999-01-26 | 2000-08-04 | Olympus Optical Co Ltd | 音声情報再生装置 |
JP2004240920A (ja) * | 2003-02-10 | 2004-08-26 | Nippon Television Network Corp | 校正システム |
WO2008096582A1 (ja) * | 2007-02-06 | 2008-08-14 | Nec Corporation | 認識器重み学習装置および音声認識装置、ならびに、システム |
JP2009182473A (ja) * | 2008-01-29 | 2009-08-13 | Kyocera Corp | コンテンツ再生装置 |
JP2013218095A (ja) * | 2012-04-09 | 2013-10-24 | Clarion Co Ltd | 音声認識サーバ統合装置および音声認識サーバ統合方法 |
Also Published As
Publication number | Publication date |
---|---|
JP6543755B1 (ja) | 2019-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108305641B (zh) | 情感信息的确定方法和装置 | |
US10885318B2 (en) | Performing artificial intelligence sign language translation services in a video relay service environment | |
CN108305643B (zh) | 情感信息的确定方法和装置 | |
JP6327848B2 (ja) | コミュニケーション支援装置、コミュニケーション支援方法およびプログラム | |
KR20170030297A (ko) | 자연어 처리 시스템, 자연어 처리 장치, 자연어 처리 방법 및 컴퓨터 판독가능 기록매체 | |
US20140372117A1 (en) | Transcription support device, method, and computer program product | |
US20150149169A1 (en) | Method and apparatus for providing mobile multimodal speech hearing aid | |
JP2007533189A (ja) | ビデオ・オーディオ同期 | |
US20090103901A1 (en) | Content tag attachment support device and content tag attachment support method | |
WO2020014890A1 (zh) | 基于口音的语音识别处理方法、电子设备和存储介质 | |
JP2012181358A (ja) | テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム | |
CN110933485A (zh) | 一种视频字幕生成方法、系统、装置和存储介质 | |
WO2023151424A1 (zh) | 视频的音画面播放速率调整方法及装置 | |
JP2019215449A (ja) | 会話補助装置、会話補助方法及びプログラム | |
US8553855B2 (en) | Conference support apparatus and conference support method | |
US11580954B2 (en) | Systems and methods of handling speech audio stream interruptions | |
US20230326369A1 (en) | Method and apparatus for generating sign language video, computer device, and storage medium | |
JP2013034057A (ja) | 電子機器、音響再生方法、及びプログラム | |
KR101618777B1 (ko) | 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법 | |
JP6543755B1 (ja) | 音声認識テキストデータ出力制御装置、音声認識テキストデータ出力制御方法、及びプログラム | |
CN115171645A (zh) | 一种配音方法、装置、电子设备以及存储介质 | |
KR20230087577A (ko) | 장면 설명의 재생 제어 | |
CN115629894B (zh) | 演讲提示方法及相关装置 | |
KR101501705B1 (ko) | 음성 데이터를 이용한 문서 생성 장치, 방법 및 컴퓨터 판독 가능 기록 매체 | |
CN113763921B (zh) | 用于纠正文本的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
AA64 | Notification of invalidation of claim of internal priority (with term) |
Free format text: JAPANESE INTERMEDIATE CODE: A241764 Effective date: 20181112 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181205 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190205 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20190205 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190204 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20190322 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190327 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190412 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190610 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190617 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6543755 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |