JP7416078B2 - 音声認識装置、音声認識方法、およびプログラム - Google Patents
音声認識装置、音声認識方法、およびプログラム Download PDFInfo
- Publication number
- JP7416078B2 JP7416078B2 JP2021548767A JP2021548767A JP7416078B2 JP 7416078 B2 JP7416078 B2 JP 7416078B2 JP 2021548767 A JP2021548767 A JP 2021548767A JP 2021548767 A JP2021548767 A JP 2021548767A JP 7416078 B2 JP7416078 B2 JP 7416078B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- user
- text information
- recognition
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 40
- 238000010586 diagram Methods 0.000 description 20
- 238000012545 processing Methods 0.000 description 19
- 238000004590 computer program Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 239000000470 constituent Substances 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 238000005401 electroluminescence Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Description
第一の側面に係る音声認識装置は、
所定の区間毎に区切られた音声認識の対象音声を、前記所定の区間毎に再生する音声再生手段と、
前記対象音声毎に、ユーザが当該対象音声を復唱した発話音声を認識する音声認識手段と、
前記音声認識手段の認識結果に基づいて、当該発話音声のテキスト情報を生成するテキスト情報生成手段と、
前記ユーザ別の識別情報と、前記発話音声および当該発話音声に対応する前記認識結果と、を関連付けて学習データとして記憶させる記憶手段と、を有し、
前記音声認識手段は、前記ユーザ別の学習データにより学習された認識エンジンを用いて認識する。
第二の側面に係る音声認識方法は、
音声認識装置が、
所定の区間毎に区切られた音声認識の対象音声を、前記所定の区間毎に再生し、
前記対象音声毎に、ユーザが当該対象音声を復唱した発話音声を認識し、
前記発話音声の認識結果に基づいて、当該発話音声のテキスト情報を生成し、
前記ユーザ別の識別情報と、前記発話音声および当該発話音声に対応する前記認識結果と、を関連付けて学習データとして記憶させ、
前記発話音声を認識する際、前記ユーザ別の学習データにより学習された認識エンジンを用いて認識する、ことを含む。
このコンピュータプログラムは、コンピュータにより実行されたとき、コンピュータに、音声認識装置上で、その音声認識方法を実施させるコンピュータプログラムコードを含む。
<システム概要>
図1は、本発明の実施の形態に係る音声認識システム1の構成例を概念的に示すブロック図である。本実施形態の音声認識システム1は、音声をテキストに書き起こすためのシステムである。音声認識システム1は、音声認識装置100と、マイクロフォン4などの音声入力部と、スピーカ6などの音声出力部と、を備えている。スピーカ6は、出力音声がマイクロフォン4に入力されないように、ユーザUが装着するヘッドホンなどであることが好ましいが、これに限定されない。音声認識システム1では、スピーカ6から出力された音声認識対象のオリジナルの音声(以下、認識対象音声データ10とも呼ぶ)をユーザUが聴き取り、ユーザUが復唱した発話音声20をマイクロフォン4から入力して音声認識装置100が音声認識処理してテキスト情報(以下、テキストデータ30とも呼ぶ)を生成する。
図2は、本発明の実施の形態に係る音声認識装置100の論理的な構成例を示す機能ブロック図である。
音声認識装置100は、音声再生部102と、音声認識部104と、テキスト情報生成部106と、記憶処理部108と、を備えている。
音声再生部102は、所定の区間毎に区切られた音声認識のオリジナルの対象音声(以下、区間音声12(図5参照)とも呼ぶ)を、所定の区間毎にユーザUに向けて再生する。
音声認識部104は、区間音声12毎に、ユーザUが当該区間音声12を復唱した発話音声20を認識する。この認識において、音声認識部104は、ユーザU別のモデル、例えばユーザU別の言語モデル210、音響モデル220、及び単語辞書230を用いる。これらユーザU別の各モデルは、例えば記憶装置110に記憶されている。
テキスト情報生成部106は、音声認識部104が認識した当該発話音声20のテキスト情報(テキストデータ30)を生成する。
記憶処理部108は、ユーザU別の識別情報(図中、ユーザIDと示す)と、発話音声20および当該発話音声20に対応する認識結果と、を関連付けて学習データ240(図6)として記憶装置110に記憶させる。
図3は、図2に示す音声認識装置100を実現するコンピュータ1000のハードウェア構成を例示するブロック図である。コンピュータ1000は、バス1010、プロセッサ1020、メモリ1030、ストレージデバイス1040、入出力インタフェース1050、およびネットワークインタフェース1060を有する。
図4は、本実施形態の音声認識装置100の動作の一例を示すフローチャートである。図5は、本実施形態の音声認識装置100における情報の関係を説明するための図である。
(1)音声認識装置100のアプリケーションを起動したとき、操作画面によりユーザUにユーザIDを入力させる。
(2)音声認識装置100のサービスを提供するウェブページまたはSaaSのサーバにアクセスするときに、システムにログインするための画面によりユーザUにユーザ認証のためにユーザIDとパスワードを入力させる。
(3)音声認識装置100を起動した携帯端末の識別情報(例えば、個体識別情報(UID:User Identifier)、IMEI(International Mobile Equipment Identity)等)をユーザIDとして取得する。
(4)音声認識装置100のアプリケーション起動後、または、ウェブページまたはサーバにアクセス後に、予め登録されている利用者をリスト表示してユーザUに選択させる。利用者に予め関連付けられているユーザIDを取得する。
本実施形態の音声認識装置100は、上記実施形態とは、ユーザUの復唱が音声再生部102による音声再生に追いつかなくなった場合など、ユーザUの復唱の状態に応じた処理を行う構成を有する点以外は上記実施形態と同じである。本実施形態の音声認識装置100は、図2の音声認識装置100と同じ構成を有するので、図2を用いて説明する。
音声再生部102は、音声認識部104が一定の時間内にユーザが復唱した発話音声20を認識しない場合、区間音声12の再生を中断し、その後、再生を中断した時点より前の時点の区間から区間音声12の再生を再開する。
図7は、本実施形態の音声認識装置100の動作の一例を示すフローチャートである。図8は、本実施形態の音声認識装置100における情報の関係を説明するための図である。
図7のフローチャートは、例えば、図5のステップS101において音声再生部102が認識対象音声データ10の各区間音声12を出力する度に動作する。
(1)音声認識部104は、ユーザUの発話音声20を認識する度(発話音声20を検出したとき、または、認識結果22を生成したとき)に、音声再生部102に認識したことを通知する。音声再生部102は、音声認識部104からの通知の時間間隔を計測し、一定の時間Tx以内か否かを判定する。
(2)音声認識部104は、ユーザUの発話音声20を認識する度に、音声再生部102に認識したことを通知する。音声再生部102は、区間音声12を再生した時点(再生開始または再生終了)から一定の時間Tx内に当該通知を取得した場合、認識したと判定し、一定の時間Tx内に当該通知を取得しない場合、認識しないと判定する。
(3)音声認識部104は、前回ユーザUが復唱した発話音声20を認識した時点から一定の時間Tx内に次の発話音声20を認識できなかった場合に、音声再生部102にその旨を通知する。ここで、認識した時点とは、例えば、発話音声20の入力を検出した時点、または、発話音声20の認識結果22が生成された時点のいずれかである。
(4)音声再生部102は、音声認識部104に区間音声12を再生した時点(再生開始または再生終了)から一定時間経過後に、発話音声20を認識できたか否かを問い合わせる。
(5)音声再生部102は、音声認識部104に区間音声12を再生した時点(再生開始または再生終了)から一定の時間Tx内に、マイクロフォン4からユーザUの発話音声20の入力があったか否かを検出する。音声再生部102は、発話音声20の入力があった場合は認識したと判定し、入力がなかった場合は認識しないと判定する。
図9のフローチャートは、図7のフローチャートのステップS111とステップS113の間にステップS121を含む。
本実施形態の音声認識装置100は、ユーザUの発話音声20の認識結果を機械学習する構成を有する点以外は、上記実施形態のいずれかと同じである。本実施形態の音声認識装置100については、図2を用いて説明する。
記憶処理部108は、音声再生部102が所定の区間の区間音声12を再生した後に、ユーザUが復唱した発話音声20に、当該所定の区間の区間音声12を関連付けて学習データ240として記憶させる。
本実施形態の音声認識装置100は、第1言語と第1言語を第2言語に翻訳して復唱して音声情報をテキストに書き起こす構成を有する点以外は上記実施形態のいずれかと同じである。
音声再生部102は、第1言語(例えば、英語)の音声認識対象音声を再生した後、音声認識部104は、復唱した第1言語の前記発話音声と当該第1言語を第2言語(例えば、日本語)に翻訳して発した発話音声20をそれぞれ音声認識する。
テキスト情報生成部106は、音声認識部104による認識結果に基づいて、第1言語と第2言語の発話音声20のテキストデータ30をそれぞれ生成する。
記憶処理部108は、ユーザUが復唱した第1言語および第2言語の発話音声20と、音声再生部102により再生された第1言語の区間音声12とを関連付けて記憶させる。
図12は、本実施形態の音声認識装置100の動作例を示すフローチャートである。まず、音声再生部102は、第1言語の音声認識の対象音声を所定の区間で区切って(区間音声12を)再生する(ステップS141)。そして、ユーザUはまず第1言語で復唱すると、音声認識部104は、ユーザUが第1言語で復唱した発話音声20を認識する(ステップS143)。さらに、ユーザUは第2言語で復唱すると、音声認識部104は、ユーザUが第2言語で復唱した発話音声20を認識する(ステップS145)。
本実施形態の音声認識装置100は、未知語を登録する構成を有する点以外は、上記実施形態のいずれかと同じである。
図14は、本実施形態の音声認識装置100の機能的な構成例を示す機能ブロック図である。
音声認識装置100は、上記実施形態の音声認識装置100の構成に加え、さらに、登録部120を有する。
登録部120は、ユーザUが発話した言葉の中で、音声認識部104により認識できなかった言葉を未知語として辞書に登録する。
図15は、本実施形態の音声認識装置100の動作例を示すフローチャートである。このフローチャートは、例えば、図4のステップS103で音声認識部104がユーザUの発話音声20を認識できなかったとき(ステップS151のYES)に開始する。そして、登録部120は、ユーザUが発話した言葉の中で、音声認識部104により認識できなかった言葉を未知語として辞書に登録する(ステップS153)。
本実施形態の音声認識装置100は、認識対象音声データ10を編集する構成を有する点以外は、上記実施形態のいずれかと同じである。
図16は、本実施形態の音声認識装置100の機能的な構成例を示す機能ブロック図である。
本実施形態の音声認識装置100は、上記実施形態の音声認識装置100の構成に加え、さらに、表示処理部130を有する。表示処理部130は、テキスト情報生成部106に生成されたテキストデータ30を表示装置132に表示させる。
図17は、本実施形態の音声認識装置100の動作例を示すフローチャートである。
表示処理部130は、テキスト情報生成部106により生成されたテキストデータ30を表示装置132に表示させる(ステップS161)。そして、編集操作を受け付ける操作メニューによりユーザUの編集操作を受け付ける(ステップS163)。
なお、本発明において利用者に関する情報を取得、利用する場合は、これを適法に行うものとする。
1. 所定の区間毎に区切られた音声認識の対象音声を、前記所定の区間毎に再生する音声再生手段と、
前記対象音声毎に、ユーザが当該対象音声を復唱した発話音声を認識する音声認識手段と、
前記音声認識手段の認識結果に基づいて、当該発話音声のテキスト情報を生成するテキスト情報生成手段と、
前記ユーザ別の識別情報と、前記発話音声および当該発話音声に対応する前記認識結果と、を関連付けて学習データとして記憶させる記憶手段と、
を備え、
前記音声認識手段は、前記ユーザ別の学習データにより学習された認識エンジンを用いて認識する、音声認識装置。
2. 前記音声再生手段は、前記音声認識手段が一定の時間内に前記ユーザが復唱した前記発話音声を認識しない場合、前記対象音声の再生を中断し、その後、前記再生を中断した時点より前の時点の区間から前記対象音声の再生を再開する、
1.に記載の音声認識装置。
3. 前記音声再生手段は、予め区切られた前記対象音声が再生される区間とは異なる区間において、前記ユーザが復唱した前記発話音声を認識しない場合に、前記対象音声の再生を中断しない、
2.に記載の音声認識装置。
4. 前記音声再生手段は、ある区間の前記対象音声の再生速度を、当該区間より前の区間に対して前記ユーザが復唱した前記発話音声を入力したときの音声入力速度に応じて、変化させる、
1.から3.のいずれか一つに記載の音声認識装置。
5. 前記記憶手段は、前記音声再生手段が前記所定の区間の対象音声を再生した後に、前記ユーザが復唱した前記発話音声に、当該所定の区間の対象音声を関連付けて記憶させる、
1.から4.のいずれか一つに記載の音声認識装置。
6. 前記音声再生手段は、第1言語の音声認識対象音声を再生した後、
前記音声認識手段は、復唱した前記第1言語の前記発話音声と当該第1言語を第2言語に翻訳して発した前記発話音声をそれぞれ音声認識し、
前記テキスト情報生成手段は、前記音声認識手段による認識結果に基づき、前記第1言語と前記第2言語の前記発話音声の前記テキスト情報をそれぞれ生成し、
前記記憶手段は、前記ユーザが復唱した前記第1言語の前記発話音声と、前記第2言語の前記発話音声と、前記音声再生手段により再生された前記第1言語の対象音声とを関連付けて記憶させる、
1.から5.のいずれか一つに記載の音声認識装置。
7. 前記ユーザが発話した言葉の中で、前記音声認識手段により認識できなかった言葉を未知語として辞書に登録する登録手段をさらに備える、
1.から6.のいずれか一つに記載の音声認識装置。
8. 前記テキスト情報を表示する表示手段をさらに備える、
1.から7.のいずれか一つに記載の音声認識装置。
9. 前記テキスト情報生成手段は、前記表示手段に表示された前記テキスト情報の編集操作を受け付け、前記編集操作に従い、前記テキスト情報を更新する、
8.に記載の音声認識装置。
所定の区間毎に区切られた音声認識の対象音声を、前記所定の区間毎に再生し、
前記対象音声毎に、ユーザが当該対象音声を復唱した発話音声を認識し、
前記発話音声の認識結果に基づいて、当該発話音声のテキスト情報を生成し、
前記ユーザ別の識別情報と、前記発話音声および当該発話音声に対応する前記認識結果と、を関連付けて学習データとして記憶させ、
前記発話音声を認識する際、前記ユーザ別の学習データにより学習された認識エンジンを用いて認識する、音声認識方法。
11. 前記音声認識装置が、
一定の時間内に前記ユーザが復唱した前記発話音声を認識しない場合、前記対象音声の再生を中断し、その後、前記再生を中断した時点より前の時点の区間から前記対象音声の再生を再開する、
10.に記載の音声認識方法。
12. 前記音声認識装置が、
予め区切られた前記対象音声が再生される区間とは異なる区間において、前記ユーザが復唱した前記発話音声を認識しない場合に、前記対象音声の再生を中断しない、
11.に記載の音声認識方法。
13. 前記音声認識装置が、
ある区間の前記対象音声の再生速度を、当該区間より前の区間に対して前記ユーザが復唱した前記発話音声を入力したときの音声入力速度に応じて、変化させる、
10.から12.のいずれか一つに記載の音声認識方法。
14. 前記音声認識装置が、
前記所定の区間の対象音声を再生した後に、前記ユーザが復唱した前記発話音声に、当該所定の区間の対象音声を関連付けて記憶させる、
10.から13.のいずれか一つに記載の音声認識方法。
15. 前記音声認識装置が、
第1言語の音声認識対象音声を再生した後、
復唱した前記第1言語の前記発話音声と当該第1言語を第2言語に翻訳して発した前記発話音声をそれぞれ音声認識し、
認識結果に基づき、前記第1言語と前記第2言語の前記発話音声の前記テキスト情報をそれぞれ生成し、
前記ユーザが復唱した前記第1言語の前記発話音声と、前記第2言語の前記発話音声と、再生された前記第1言語の対象音声とを関連付けて記憶させる、
10.から14.のいずれか一つに記載の音声認識方法。
16. 前記音声認識装置が、さらに、
前記ユーザが発話した言葉の中で、認識できなかった言葉を未知語として辞書に登録する、
10.から15.のいずれか一つに記載の音声認識方法。
17. 前記音声認識装置が、さらに、
前記テキスト情報を表示部に表示する、
10.から16.のいずれか一つに記載の音声認識方法。
18. 前記音声認識装置が、
前記表示部に表示された前記テキスト情報の編集操作を受け付け、前記編集操作に従い、前記テキスト情報を更新する、
17.に記載の音声認識方法。
所定の区間毎に区切られた音声認識の対象音声を、前記所定の区間毎に再生する手順、
前記対象音声毎に、ユーザが当該対象音声を復唱した発話音声を前記ユーザ別の学習データにより学習された認識エンジンを用いて認識する手順、
前記発話音声の認識結果に基づいて、当該発話音声のテキスト情報を生成する手順、
前記ユーザ別の識別情報と、前記発話音声および当該発話音声に対応する前記認識結果と、を関連付けて学習データとして記憶させる手順、を実行させるためのプログラム。
20. 一定の時間内に前記ユーザが復唱した前記発話音声を認識しない場合、前記対象音声の再生を中断する手順、
その後、前記再生を中断した時点より前の時点の区間から前記対象音声の再生を再開する手順、をコンピュータに実行させるための、
19.に記載のプログラム。
21. 予め区切られた前記対象音声が再生される区間とは異なる区間において、前記ユーザが復唱した前記発話音声を認識しない場合に、前記対象音声の再生を中断する手順を実行しない手順、をコンピュータに実行させるための、
20.に記載のプログラム。
22. ある区間の前記対象音声の再生速度を、当該区間より前の区間に対して前記ユーザが復唱した前記発話音声を入力したときの音声入力速度に応じて、変化させる手順、をコンピュータに実行させるための、
19.から21.のいずれか一つに記載のプログラム。
23. 前記所定の区間の対象音声を再生した後に、前記ユーザが復唱した前記発話音声に、当該所定の区間の対象音声を関連付けて記憶させる手順、をコンピュータに実行させるための、
19.から22.のいずれか一つに記載のプログラム。
24. 第1言語の音声認識対象音声を再生した後、
復唱した前記第1言語の前記発話音声と当該第1言語を第2言語に翻訳して発した前記発話音声をそれぞれ音声認識する手順、
認識結果に基づき、前記第1言語と前記第2言語の前記発話音声の前記テキスト情報をそれぞれ生成する手順、
前記ユーザが復唱した前記第1言語の前記発話音声と、前記第2言語の前記発話音声と、再生された前記第1言語の対象音声とを関連付けて記憶させる手順、をコンピュータに実行させるための、
19.から23.のいずれか一つに記載のプログラム。
25. 前記ユーザが発話した言葉の中で、認識できなかった言葉を未知語として辞書に登録する手順、をさらにコンピュータに実行させるための、
19.から24.のいずれか一つに記載のプログラム。
26. 前記テキスト情報を表示部に表示する手順、をさらにコンピュータに実行させるための、
19.から25.のいずれか一つに記載のプログラム。
27. 前記表示部に表示された前記テキスト情報の編集操作を受け付け、前記編集操作に従い、前記テキスト情報を更新する手順、をコンピュータに実行させるための、
26.に記載のプログラム。
3 通信ネットワーク
4 マイクロフォン
6 スピーカ
10 認識対象音声データ
12 区間音声
20 発話音声
22 認識結果
30 テキストデータ
100 音声認識装置
102 音声再生部
104 音声認識部
106 テキスト情報生成部
108 記憶処理部
110 記憶装置
120 登録部
130 表示処理部
132 表示装置
134 入力装置
200 音声認識エンジン
210 言語モデル
220 音響モデル
230 単語辞書
240 学習データ
340 学習データ
1000 コンピュータ
1010 バス
1020 プロセッサ
1030 メモリ
1040 ストレージデバイス
1050 入出力インタフェース
1060 ネットワークインタフェース
Claims (8)
- 所定の区間毎に区切られた音声認識の対象音声を、前記所定の区間毎に再生する音声再生手段と、
前記対象音声毎に、ユーザが当該対象音声を復唱した発話音声を認識する音声認識手段と、
前記音声認識手段の認識結果に基づいて、当該発話音声のテキスト情報を生成するテキスト情報生成手段と、
前記ユーザ別の識別情報と、前記発話音声および当該発話音声に対応する前記認識結果と、を関連付けて学習データとして記憶させる記憶手段と、
を備え、
前記音声認識手段は、前記ユーザ別の学習データにより学習された認識エンジンを用いて認識し、
前記テキスト情報を表示する表示手段をさらに備え、
前記表示手段は、前記テキスト情報のうち、前記音声認識手段による前記認識結果の尤度が基準値以下の言葉について、他の部分と識別可能に表示し、
前記テキスト情報生成手段は、前記表示手段に表示された前記テキスト情報の編集操作を受け付け、前記編集操作に従い、前記テキスト情報を更新し、
前記音声再生手段は、前記音声認識手段が一定の時間内に前記ユーザが復唱した前記発話音声を認識しない場合、前記対象音声の再生を中断し、その後、前記再生を中断した時点より前の時点の区間から前記対象音声の再生を再開する、音声認識装置。 - 前記音声再生手段は、予め区切られた前記対象音声が再生される区間とは異なる区間において、前記ユーザが復唱した前記発話音声を認識しない場合に、前記対象音声の再生を中断しない、
請求項1に記載の音声認識装置。 - 前記音声再生手段は、ある区間の前記対象音声の再生速度を、当該区間より前の区間に対して前記ユーザが復唱した前記発話音声を入力したときの音声入力速度に応じて、変化させる、
請求項1または2に記載の音声認識装置。 - 前記記憶手段は、前記音声再生手段が前記所定の区間の対象音声を再生した後に、前記ユーザが復唱した前記発話音声に、当該所定の区間の対象音声を関連付けて前記学習データとして記憶させる、
請求項1から3のいずれか一項に記載の音声認識装置。 - 前記音声再生手段が、第1言語の音声認識対象音声を再生した後、
前記音声認識手段は、復唱した前記第1言語の前記発話音声と当該第1言語を第2言語に翻訳して発した前記発話音声をそれぞれ音声認識し、
前記テキスト情報生成手段は、前記音声認識手段による認識結果に基づき、前記第1言語と前記第2言語の前記発話音声の前記テキスト情報をそれぞれ生成し、
前記記憶手段は、前記ユーザが復唱した前記第1言語の前記発話音声と、前記第2言語の前記発話音声と、前記音声再生手段により再生された前記第1言語の対象音声とを関連付けて翻訳エンジンの学習データとして記憶させる、
請求項1から4のいずれか一項に記載の音声認識装置。 - 前記ユーザが発話した言葉の中で、前記音声認識手段により認識できなかった言葉を未知語として辞書に登録する登録手段をさらに備え、
前記登録手段は、
前記テキスト情報のうち、前記未知語を、前記表示手段により、識別可能に表示させ、
前記テキスト情報生成手段により、前記編集操作を受け付け、
前記編集操作された前記言葉を前記辞書に単語登録する、
請求項1から5のいずれか一項に記載の音声認識装置。 - 音声認識装置が、
所定の区間毎に区切られた音声認識の対象音声を、前記所定の区間毎に再生し、
前記対象音声毎に、ユーザが当該対象音声を復唱した発話音声を認識し、
前記発話音声の認識結果に基づいて、当該発話音声のテキスト情報を生成し、
前記ユーザ別の識別情報と、前記発話音声および当該発話音声に対応する前記認識結果と、を関連付けて学習データとして記憶させ、
前記発話音声を認識する際、前記ユーザ別の学習データにより学習された認識エンジンを用いて認識し、
前記テキスト情報を表示し、
前記テキスト情報を表示する際、前記テキスト情報のうち、前記認識結果の尤度が基準値以下の言葉について、他の部分と識別可能に表示し、
前記テキスト情報を生成する際、表示された前記テキスト情報の編集操作を受け付け、前記編集操作に従い、前記テキスト情報を更新し、
前記発話音声を認識する際に一定の時間内に前記ユーザが復唱した前記発話音声を認識しない場合、前記対象音声の再生を中断し、その後、前記再生を中断した時点より前の時点の区間から前記対象音声の再生を再開する、する、音声認識方法。 - コンピュータに、
所定の区間毎に区切られた音声認識の対象音声を、前記所定の区間毎に再生する手順、
前記対象音声毎に、ユーザが当該対象音声を復唱した発話音声を前記ユーザ別の学習データにより学習された認識エンジンを用いて認識する手順、
前記発話音声の認識結果に基づいて、当該発話音声のテキスト情報を生成する手順、
前記ユーザ別の識別情報と、前記発話音声および当該発話音声に対応する前記認識結果と、を関連付けて学習データとして記憶させる手順、
前記テキスト情報を表示する手順、を実行させ、
前記表示する手順において、前記テキスト情報のうち、前記認識結果の尤度が基準値以下の言葉について、他の部分と識別可能に表示し、
前記テキスト情報を生成する手順において、前記表示する手順において表示された前記テキスト情報の編集操作を受け付け、前記編集操作に従い、前記テキスト情報を更新し、
前記発話音声を認識する手順において一定の時間内に前記ユーザが復唱した前記発話音声を認識しない場合、前記対象音声を再生する手順において、前記対象音声の再生を中断し、その後、前記再生を中断した時点より前の時点の区間から前記対象音声の再生を再開する、プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019176484 | 2019-09-27 | ||
JP2019176484 | 2019-09-27 | ||
PCT/JP2020/033974 WO2021059968A1 (ja) | 2019-09-27 | 2020-09-08 | 音声認識装置、音声認識方法、およびプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JPWO2021059968A1 JPWO2021059968A1 (ja) | 2021-04-01 |
JPWO2021059968A5 JPWO2021059968A5 (ja) | 2022-06-01 |
JP7416078B2 true JP7416078B2 (ja) | 2024-01-17 |
Family
ID=75166092
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021548767A Active JP7416078B2 (ja) | 2019-09-27 | 2020-09-08 | 音声認識装置、音声認識方法、およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220335951A1 (ja) |
JP (1) | JP7416078B2 (ja) |
WO (1) | WO2021059968A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7288530B1 (ja) | 2022-03-09 | 2023-06-07 | 陸 荒川 | システムおよびプログラム |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004170765A (ja) | 2002-11-21 | 2004-06-17 | Sony Corp | 音声処理装置および方法、記録媒体並びにプログラム |
JP2003345379A6 (ja) | 2002-03-20 | 2004-09-02 | 科学技術振興事業団 | 音声映像変換装置及び方法、音声映像変換プログラム |
JP2010197669A (ja) | 2009-02-25 | 2010-09-09 | Kyocera Corp | 携帯端末、編集誘導プログラムおよび編集装置 |
JP2013182261A (ja) | 2012-03-05 | 2013-09-12 | Nippon Hoso Kyokai <Nhk> | 適応化装置、音声認識装置、およびそのプログラム |
JP2014240940A (ja) | 2013-06-12 | 2014-12-25 | 株式会社東芝 | 書き起こし支援装置、方法、及びプログラム |
JP2015184564A (ja) | 2014-03-25 | 2015-10-22 | 株式会社アドバンスト・メディア | 音声書起支援システム、サーバ、装置、方法及びプログラム |
WO2017068826A1 (ja) | 2015-10-23 | 2017-04-27 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
JP2017161726A (ja) | 2016-03-09 | 2017-09-14 | 株式会社アドバンスト・メディア | 情報処理装置、情報処理システム、サーバ、端末装置、情報処理方法及びプログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003345379A (ja) * | 2002-03-20 | 2003-12-03 | Japan Science & Technology Corp | 音声映像変換装置及び方法、音声映像変換プログラム |
-
2020
- 2020-09-08 US US17/760,847 patent/US20220335951A1/en active Pending
- 2020-09-08 JP JP2021548767A patent/JP7416078B2/ja active Active
- 2020-09-08 WO PCT/JP2020/033974 patent/WO2021059968A1/ja active Application Filing
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003345379A6 (ja) | 2002-03-20 | 2004-09-02 | 科学技術振興事業団 | 音声映像変換装置及び方法、音声映像変換プログラム |
JP2004170765A (ja) | 2002-11-21 | 2004-06-17 | Sony Corp | 音声処理装置および方法、記録媒体並びにプログラム |
JP2010197669A (ja) | 2009-02-25 | 2010-09-09 | Kyocera Corp | 携帯端末、編集誘導プログラムおよび編集装置 |
JP2013182261A (ja) | 2012-03-05 | 2013-09-12 | Nippon Hoso Kyokai <Nhk> | 適応化装置、音声認識装置、およびそのプログラム |
JP2014240940A (ja) | 2013-06-12 | 2014-12-25 | 株式会社東芝 | 書き起こし支援装置、方法、及びプログラム |
JP2015184564A (ja) | 2014-03-25 | 2015-10-22 | 株式会社アドバンスト・メディア | 音声書起支援システム、サーバ、装置、方法及びプログラム |
WO2017068826A1 (ja) | 2015-10-23 | 2017-04-27 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
JP2017161726A (ja) | 2016-03-09 | 2017-09-14 | 株式会社アドバンスト・メディア | 情報処理装置、情報処理システム、サーバ、端末装置、情報処理方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JPWO2021059968A1 (ja) | 2021-04-01 |
WO2021059968A1 (ja) | 2021-04-01 |
US20220335951A1 (en) | 2022-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102100389B1 (ko) | 개인화된 엔티티 발음 학습 | |
US8738375B2 (en) | System and method for optimizing speech recognition and natural language parameters with user feedback | |
US9984679B2 (en) | System and method for optimizing speech recognition and natural language parameters with user feedback | |
US20210366462A1 (en) | Emotion classification information-based text-to-speech (tts) method and apparatus | |
US20120016671A1 (en) | Tool and method for enhanced human machine collaboration for rapid and accurate transcriptions | |
JP5787780B2 (ja) | 書き起こし支援システムおよび書き起こし支援方法 | |
EP3736807A1 (en) | Apparatus for media entity pronunciation using deep learning | |
WO2014136534A1 (ja) | 理解支援システム、理解支援サーバ、理解支援方法、及びコンピュータ読み取り可能な記録媒体 | |
JP2016062357A (ja) | 音声翻訳装置、方法およびプログラム | |
US11587547B2 (en) | Electronic apparatus and method for controlling thereof | |
JP2014240940A (ja) | 書き起こし支援装置、方法、及びプログラム | |
JP5638479B2 (ja) | 書き起こし支援システムおよび書き起こし支援方法 | |
JP2013025299A (ja) | 書き起こし支援システムおよび書き起こし支援方法 | |
JP2024508033A (ja) | 対話中のテキスト-音声の瞬時学習 | |
JPWO2018043138A1 (ja) | 情報処理装置および情報処理方法、並びにプログラム | |
JP2013109061A (ja) | 音声データ検索システムおよびそのためのプログラム | |
JP7416078B2 (ja) | 音声認識装置、音声認識方法、およびプログラム | |
JP4354299B2 (ja) | 事例検索プログラム、事例検索方法及び事例検索装置 | |
JP2015087544A (ja) | 音声認識装置及び音声認識プログラム | |
JP2013069228A (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP2021009253A (ja) | プログラム、情報処理装置、及び情報処理方法 | |
US7092884B2 (en) | Method of nonvisual enrollment for speech recognition | |
KR20210043341A (ko) | 인공지능 대화 서비스 생성 방법 및 장치 | |
KR101501705B1 (ko) | 음성 데이터를 이용한 문서 생성 장치, 방법 및 컴퓨터 판독 가능 기록 매체 | |
JP6387044B2 (ja) | テキスト処理装置、テキスト処理方法およびテキスト処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220324 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220324 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230214 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230412 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230725 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230825 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231218 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7416078 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |