JP7416078B2

JP7416078B2 - 音声認識装置、音声認識方法、およびプログラム

Info

Publication number: JP7416078B2
Application number: JP2021548767A
Authority: JP
Inventors: 秀治古明地
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2019-09-27
Filing date: 2020-09-08
Publication date: 2024-01-17
Anticipated expiration: 2040-09-08
Also published as: JPWO2021059968A1; WO2021059968A1; US20220335951A1

Description

本発明は、音声認識装置、音声認識方法、およびプログラムに関する。

音声から字幕を制作する装置の一例が特許文献１に記載されている。特許文献１の装置は、音声認識部が対象音声または対象音声を復唱した音声を音声認識してテキストに変換し、テキスト分割・結合部が音声認識後のテキストを分割処理して字幕テキストを生成する。

また、特許文献２には、携帯電話機は、マイクから入力された音声情報を、音声／テキスト変換部を用いてテキスト情報に変換してテキスト送信部を用いて送信し、さらに、テキスト受信部が受信したテキスト情報を、テキスト／音声変換部を用いて音声情報に変換してスピーカから出力することが記載されている。

特開２０１７－４０８０６号公報特開２００７－１１４５８２号公報

音声を復唱する場合、復唱される音声の特徴には個人差が生じ得る。このため、アノテータにより復唱された音声を認識する場合、認識精度にバラツキが生じる可能性がある。このため、音声の書き起こしにおいて音声認識精度が十分に向上しない可能性がある。

本発明は上記事情に鑑みてなされたものであり、その目的とするところは、音声の書き起こしにおいて音声認識精度を向上する技術を提供することにある。

本発明の各側面では、上述した課題を解決するために、それぞれ以下の構成を採用する。

第一の側面は、音声認認識置に関する。
第一の側面に係る音声認識装置は、
所定の区間毎に区切られた音声認識の対象音声を、前記所定の区間毎に再生する音声再生手段と、
前記対象音声毎に、ユーザが当該対象音声を復唱した発話音声を認識する音声認識手段と、
前記音声認識手段の認識結果に基づいて、当該発話音声のテキスト情報を生成するテキスト情報生成手段と、
前記ユーザ別の識別情報と、前記発話音声および当該発話音声に対応する前記認識結果と、を関連付けて学習データとして記憶させる記憶手段と、を有し、
前記音声認識手段は、前記ユーザ別の学習データにより学習された認識エンジンを用いて認識する。

第二の側面は、少なくとも１つのコンピュータにより実行される音声認識方法に関する。
第二の側面に係る音声認識方法は、
音声認識装置が、
所定の区間毎に区切られた音声認識の対象音声を、前記所定の区間毎に再生し、
前記対象音声毎に、ユーザが当該対象音声を復唱した発話音声を認識し、
前記発話音声の認識結果に基づいて、当該発話音声のテキスト情報を生成し、
前記ユーザ別の識別情報と、前記発話音声および当該発話音声に対応する前記認識結果と、を関連付けて学習データとして記憶させ、
前記発話音声を認識する際、前記ユーザ別の学習データにより学習された認識エンジンを用いて認識する、ことを含む。

なお、本発明の他の側面としては、上記第二の側面の方法を少なくとも１つのコンピュータに実行させるプログラムであってもよいし、このようなプログラムを記録したコンピュータが読み取り可能な記録媒体であってもよい。この記録媒体は、非一時的な有形の媒体を含む。
このコンピュータプログラムは、コンピュータにより実行されたとき、コンピュータに、音声認識装置上で、その音声認識方法を実施させるコンピュータプログラムコードを含む。

なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

また、本発明の各種の構成要素は、必ずしも個々に独立した存在である必要はなく、複数の構成要素が一個の部材として形成されていること、一つの構成要素が複数の部材で形成されていること、ある構成要素が他の構成要素の一部であること、ある構成要素の一部と他の構成要素の一部とが重複していること、等でもよい。

また、本発明の方法およびコンピュータプログラムには複数の手順を順番に記載してあるが、その記載の順番は複数の手順を実行する順番を限定するものではない。このため、本発明の方法およびコンピュータプログラムを実施するときには、その複数の手順の順番は内容的に支障のない範囲で変更することができる。

さらに、本発明の方法およびコンピュータプログラムの複数の手順は個々に相違するタイミングで実行されることに限定されない。このため、ある手順の実行中に他の手順が発生すること、ある手順の実行タイミングと他の手順の実行タイミングとの一部ないし全部が重複していること、等でもよい。

上記各側面によれば、音声の書き起こしにおいて音声認識精度を向上する技術を提供することができる。

本発明の実施の形態に係る音声認識システムの構成例を概念的に示すブロック図である。本発明の実施の形態に係る音声認識装置の論理的な構成例を示す機能ブロック図である。図２に示す音声認識装置を実現するコンピュータのハードウェア構成を例示するブロック図である。本実施形態の音声認識装置の動作の一例を示すフローチャートである。本実施形態の音声認識装置における情報の関係を説明するための図である。本実施形態の学習データのデータ構造の一例を示す図である。本実施形態の音声認識装置の動作の一例を示すフローチャートである。本実施形態の音声認識装置における情報の関係を説明するための図である。本実施形態の音声認識装置の他の動作例を示すフローチャートである。本実施形態の音声認識装置のさらなる他の動作例を示すフローチャートである。本実施形態の学習データのデータ構造の一例を示す図である。本実施形態の音声認識装置の動作例を示すフローチャートである。本実施形態の学習データのデータ構造の例を示す図である。本実施形態の音声認識装置の機能的な構成例を示す機能ブロック図である。本実施形態の音声認識装置の動作例を示すフローチャートである。本実施形態の音声認識装置の機能的な構成例を示す機能ブロック図である。本実施形態の音声認識装置の動作例を示すフローチャートである。

以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。以下の各図において、本発明の本質に関わらない部分の構成については省略してあり、図示されていない。

実施形態において「取得」とは、自装置が他の装置や記憶媒体に格納されているデータまたは情報を取りに行くこと（能動的な取得）、および、自装置に他の装置から出力されるデータまたは情報を入力すること（受動的な取得）の少なくとも一方を含む。能動的な取得の例は、他の装置にリクエストまたは問い合わせしてその返信を受信すること、及び、他の装置や記憶媒体にアクセスして読み出すこと等がある。また、受動的な取得の例は、配信（または、送信、プッシュ通知等）される情報を受信すること等がある。さらに、「取得」とは、受信したデータまたは情報の中から選択して取得すること、または、配信されたデータまたは情報を選択して受信することであってもよい。

（第１の実施の形態）
＜システム概要＞
図１は、本発明の実施の形態に係る音声認識システム１の構成例を概念的に示すブロック図である。本実施形態の音声認識システム１は、音声をテキストに書き起こすためのシステムである。音声認識システム１は、音声認識装置１００と、マイクロフォン４などの音声入力部と、スピーカ６などの音声出力部と、を備えている。スピーカ６は、出力音声がマイクロフォン４に入力されないように、ユーザＵが装着するヘッドホンなどであることが好ましいが、これに限定されない。音声認識システム１では、スピーカ６から出力された音声認識対象のオリジナルの音声（以下、認識対象音声データ１０とも呼ぶ）をユーザＵが聴き取り、ユーザＵが復唱した発話音声２０をマイクロフォン４から入力して音声認識装置１００が音声認識処理してテキスト情報（以下、テキストデータ３０とも呼ぶ）を生成する。

音声認識装置１００は、音声認識エンジン２００を有している。音声認識エンジン２００は、各種のモデル、例えば言語モデル２１０と、音響モデル２２０と、単語辞書２３０と、を有している。音声認識装置１００は、音声認識エンジン２００を用いて認識対象音声データ１０をユーザＵが復唱した発話音声２０を認識し、認識結果としてテキストデータ３０を出力する。本実施形態において、音声認識エンジン２００で用いられる各モデルは話者毎に設けられている。

オリジナルの認識対象音声データ１０は、発話した人物によって発音、速度、音量などにバラツキがあったり、人毎に癖があったり、録音環境（周囲の環境、録音機材、録音データの種類など）も様々なため音質が音声認識に適用できる水準を満たさない可能性があったりする。そのため、認識精度が低下したり、誤認識が発生したりする。そこで、アノテータと呼ばれるユーザＵはスピーカ６から出力されたオリジナルの認識対象音声データ１０を聞くことで、聞いた認識対象音声データ１０に含まれる発話内容を復唱する。音声認識装置１００は、当該ユーザＵが復唱した発話音声２０を一定の条件で認識する。ユーザＵは、発話速度や発声などを音声認識に適した基準になるように復唱（発話）するのが好ましい。しかし、復唱時の音声には個人差が生じやすく認識精度にもばらつきが生じる。そこで、本実施形態の音声認識装置１００は、アノテータの発話音声の特徴や癖を学習する。これにより、音声認識装置１００による認識精度は高くなる。

＜機能構成例＞
図２は、本発明の実施の形態に係る音声認識装置１００の論理的な構成例を示す機能ブロック図である。
音声認識装置１００は、音声再生部１０２と、音声認識部１０４と、テキスト情報生成部１０６と、記憶処理部１０８と、を備えている。
音声再生部１０２は、所定の区間毎に区切られた音声認識のオリジナルの対象音声（以下、区間音声１２（図５参照）とも呼ぶ）を、所定の区間毎にユーザＵに向けて再生する。
音声認識部１０４は、区間音声１２毎に、ユーザＵが当該区間音声１２を復唱した発話音声２０を認識する。この認識において、音声認識部１０４は、ユーザＵ別のモデル、例えばユーザＵ別の言語モデル２１０、音響モデル２２０、及び単語辞書２３０を用いる。これらユーザＵ別の各モデルは、例えば記憶装置１１０に記憶されている。
テキスト情報生成部１０６は、音声認識部１０４が認識した当該発話音声２０のテキスト情報（テキストデータ３０）を生成する。
記憶処理部１０８は、ユーザＵ別の識別情報（図中、ユーザＩＤと示す）と、発話音声２０および当該発話音声２０に対応する認識結果と、を関連付けて学習データ２４０（図６）として記憶装置１１０に記憶させる。

＜ハードウェア構成例＞
図３は、図２に示す音声認識装置１００を実現するコンピュータ１０００のハードウェア構成を例示するブロック図である。コンピュータ１０００は、バス１０１０、プロセッサ１０２０、メモリ１０３０、ストレージデバイス１０４０、入出力インタフェース１０５０、およびネットワークインタフェース１０６０を有する。

バス１０１０は、プロセッサ１０２０、メモリ１０３０、ストレージデバイス１０４０、入出力インタフェース１０５０、およびネットワークインタフェース１０６０が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ１０２０などを互いに接続する方法は、バス接続に限定されない。

プロセッサ１０２０は、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）などで実現されるプロセッサである。

メモリ１０３０は、ＲＡＭ（Random Access Memory）などで実現される主記憶装置である。

ストレージデバイス１０４０は、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、メモリカード、又はＲＯＭ（Read Only Memory）などで実現される補助記憶装置である。ストレージデバイス１０４０はコンピュータ１０００の各機能を実現するプログラムモジュールを記憶している。プロセッサ１０２０がこれら各プログラムモジュールをメモリ１０３０上に読み込んで実行することで、そのプログラムモジュールに対応する各機能が実現される。また、ストレージデバイス１０４０は音声認識エンジン２００の各モデルも記憶している。

プログラムモジュールは、記録媒体に記録されてもよい。プログラムモジュールを記録する記録媒体は、非一時的な有形のコンピュータ１０００が使用可能な媒体を含み、その媒体に、コンピュータ１０００（プロセッサ１０２０）が読み取り可能なプログラムコードが埋め込まれてよい。

入出力インタフェース１０５０は、コンピュータ１０００と各種入出力機器とを接続するためのインタフェースである。

ネットワークインタフェース１０６０は、コンピュータ１０００を通信ネットワークに接続するためのインタフェースである。この通信ネットワークは、例えばＬＡＮ（Local Area Network）やＷＡＮ（Wide Area Network）である。ネットワークインタフェース１０６０が通信ネットワークに接続する方法は、無線接続であってもよいし、有線接続であってもよい。

そして、コンピュータ１０００は、入出力インタフェース１０５０またはネットワークインタフェース１０６０を介して、必要な機器（例えば、マイクロフォン４、およびスピーカ６）に接続する。

音声認識装置１００を実現するコンピュータ１０００は、例えば、パーソナルコンピュータ、スマートフォン、タブレット端末などである。あるいは、音声認識装置１００を実現するコンピュータ１０００は、専用の端末装置であってもよい。例えば、音声認識装置１００は、コンピュータ１０００に、当該音声認識装置１００を実現するためのアプリケーションプログラムをインストールして起動することで実現される。

他の例では、コンピュータ１０００は、ウェブサーバであり、ユーザはパーソナルコンピュータ、スマートフォン、タブレット端末などのユーザ端末でブラウザを起動し、インターネットなどのネットワークを介して音声認識装置１００のサービスを提供するウェブページにアクセスすることで、音声認識装置１００の機能を利用できてもよい。

さらなる他の例では、コンピュータ１０００は、音声認識装置１００のサービスを提供するＳａａＳ（Software as a Service）などシステムのサーバ装置であってもよい。ユーザはパーソナルコンピュータ、スマートフォン、タブレット端末などのユーザ端末からインターネットなどのネットワークを介してサーバ装置にアクセスし、サーバ装置上で動作するプログラムにより音声認識装置１００が実現されてもよい。

＜動作例＞
図４は、本実施形態の音声認識装置１００の動作の一例を示すフローチャートである。図５は、本実施形態の音声認識装置１００における情報の関係を説明するための図である。

まず、音声再生部１０２は、所定の区間毎に区切られた音声認識のオリジナルの対象音声を再生する（ステップＳ１０１）。具体的には、音声再生部１０２は、認識対象音声データ１０を所定の区間で区切ってスピーカ６を介して出力する。図５のＳａ１、Ｓａ２、Ｓａ３が各区間音声１２である。

所定の区間とは、例えば、認識対象の音声に含まれる文、文節、および単語の少なくともいずれか一つを含む区間である。各区間には複数の文、文節、および単語が含まれてもよい。各区間に含まれる文、文節および単語の数は一定でなくてもよい。各音声区間の間は、所定の時間間隔ｔｓが空いている。所定の時間間隔ｔｓは一定であってもよいし、一定でなくてもよい。音声再生部１０２は、文、文節、および単語のいずれか一つを含む区間毎に認識対象音声データ１０を区切って区間音声１２を再生する。各区間音声１２の間は、無音としてもよいし、所定の報知音を出力してもよい。

音声認識部１０４は、言語モデル２１０、音響モデル２２０、および単語辞書２３０を含む音声認識エンジン２００を用いて区間音声１２を認識する。上記したように、音声認識装置１００は、音声認識エンジン２００で用いられる各モデル（例えば言語モデル２１０、音響モデル２２０、および単語辞書２３０）をユーザＵ別に記憶している。各モデルは、対応するユーザＵの音声とその認識結果を学習させることにより生成されている。このため、各モデルには対応するユーザＵの音声の特徴や癖が反映されている。モデルの学習については後述する実施形態で説明する。

各モデルは、ユーザＵを識別するユーザＩＤに関連付けておく。音声認識部１０４は、音声認識処理に先立ち、ユーザＵのユーザＩＤを取得し、取得したユーザＩＤに対応する音声認識エンジン２００を読み出して準備しておく。ユーザＩＤの取得方法は以下に例示される。なお、ユーザＩＤの代わりに声紋などの生体情報が用いられてもよい。
（１）音声認識装置１００のアプリケーションを起動したとき、操作画面によりユーザＵにユーザＩＤを入力させる。
（２）音声認識装置１００のサービスを提供するウェブページまたはＳａａＳのサーバにアクセスするときに、システムにログインするための画面によりユーザＵにユーザ認証のためにユーザＩＤとパスワードを入力させる。
（３）音声認識装置１００を起動した携帯端末の識別情報（例えば、個体識別情報（ＵＩＤ：User Identifier）、ＩＭＥＩ（International Mobile Equipment Identity）等）をユーザＩＤとして取得する。
（４）音声認識装置１００のアプリケーション起動後、または、ウェブページまたはサーバにアクセス後に、予め登録されている利用者をリスト表示してユーザＵに選択させる。利用者に予め関連付けられているユーザＩＤを取得する。

そして、音声認識部１０４は、ユーザＵが復唱した発話音声２０を認識する（ステップＳ１０３）。音声認識部１０４には、マイクロフォン４を介してユーザＵの発話音声２０が入力される。ユーザＵは音声再生部１０２により再生された区間音声１２を聞いて、当該音声を復唱する。ユーザＵは、区間音声１２を聞く毎に復唱する。図５のＳｂ１、Ｓｂ２、Ｓｂ３が各発話音声２０である。

音声認識部１０４は、ユーザＵが復唱した各発話音声２０の間の無音区間ｓｓを検出することにより、入力される各発話音声２０の区切りを検出する。音声認識部１０４は、検出した各発話音声２０をそれぞれ認識し、認識結果２２をテキスト情報生成部１０６に受け渡す。図５のＴ１、Ｔ２、Ｔ３が各認識結果２２である。

そして、テキスト情報生成部１０６は、発話音声２０のテキスト情報（テキストデータ３０）を生成する（ステップＳ１０５）。テキスト情報生成部１０６は、各区間音声１２に対応する発話音声２０の認識結果２２を音声認識部１０４から順次取得し、これらを繋げて一連の発話音声２０に対応するテキストデータ３０を生成する。

音声認識部１０４から取得する認識結果２２は、尤度などの情報を含んでもよい。テキスト情報生成部１０６は、言語モデル２１０および単語辞書２３０を用いて、各区間音声１２の発話音声２０に対応する認識結果２２を繋げて文章を作成し、テキストデータ３０を生成する。例えば、テキストデータ３０は、生成された文章が記載されたテキスト形式のファイルである。

そして、記憶処理部１０８は、ユーザＵ別に発話音声２０と認識結果２２とを関連付けて学習データ２４０として記憶装置１１０に記憶させる（ステップＳ１０７）。

図６は、学習データ２４０のデータ構造の一例を示す図である。学習データ２４０は、ユーザＵの識別情報（ユーザＩＤ）と、発話音声２０と、認識結果２２と、を関連付けて記憶する。

ユーザＵ毎の学習データ２４０を用いてユーザＵ毎の音声認識エンジン２００を機械学習させることで、ユーザＵの発話特徴にあわせることができる。

本実施形態によれば、音声認識部１０４は、ユーザＵ毎の発話特徴を学習した音声認識エンジン２００を用いて音声認識を行うことができるので、認識精度を向上できる。

（第２の実施の形態）
本実施形態の音声認識装置１００は、上記実施形態とは、ユーザＵの復唱が音声再生部１０２による音声再生に追いつかなくなった場合など、ユーザＵの復唱の状態に応じた処理を行う構成を有する点以外は上記実施形態と同じである。本実施形態の音声認識装置１００は、図２の音声認識装置１００と同じ構成を有するので、図２を用いて説明する。

＜機能構成例＞
音声再生部１０２は、音声認識部１０４が一定の時間内にユーザが復唱した発話音声２０を認識しない場合、区間音声１２の再生を中断し、その後、再生を中断した時点より前の時点の区間から区間音声１２の再生を再開する。

さらに、音声再生部１０２は、予め区切られた区間音声１２が再生される区間とは異なる区間において、ユーザＵが復唱した発話音声２０を認識しない場合に、区間音声１２の再生を中断しない。

ここで、予め区切られた区間音声１２が再生される区間とは異なる区間とは、例えば、認識対象音声データ１０を区切って再生される複数の区間音声１２の各々の間の無再生区間である。上記したように、無再生区間の間隔は、時間間隔ｔｓである。

さらに、音声再生部１０２は、ある区間の対象音声（区間音声１２）の再生速度を、当該区間より前の区間に対してユーザＵが復唱した発話音声２０を入力したときの音声入力速度に応じて、変化させる。

再生速度の制御方法は以下に例示されるが、これらに限定されない。例えば、音声再生部１０２は、発話音声２０の入力速度が所定の速度より遅ければ、再生速度を所定の速度より遅くし、発話音声２０の入力速度が所定の速度より早ければ、再生速度を所定の速度より早くする。あるいは、音声再生部１０２は、発話音声２０の入力速度と同じ速度で認識対象のオリジナルの音声（区間音声１２）を再生してもよい。

＜動作例＞
図７は、本実施形態の音声認識装置１００の動作の一例を示すフローチャートである。図８は、本実施形態の音声認識装置１００における情報の関係を説明するための図である。
図７のフローチャートは、例えば、図５のステップＳ１０１において音声再生部１０２が認識対象音声データ１０の各区間音声１２を出力する度に動作する。

まず、音声再生部１０２は、音声認識部１０４が一定の時間内にユーザが復唱した発話音声２０を認識したか否かを判定する（ステップＳ１１１）。この判定方法は以下に例示される。
（１）音声認識部１０４は、ユーザＵの発話音声２０を認識する度（発話音声２０を検出したとき、または、認識結果２２を生成したとき）に、音声再生部１０２に認識したことを通知する。音声再生部１０２は、音声認識部１０４からの通知の時間間隔を計測し、一定の時間Ｔｘ以内か否かを判定する。
（２）音声認識部１０４は、ユーザＵの発話音声２０を認識する度に、音声再生部１０２に認識したことを通知する。音声再生部１０２は、区間音声１２を再生した時点（再生開始または再生終了）から一定の時間Ｔｘ内に当該通知を取得した場合、認識したと判定し、一定の時間Ｔｘ内に当該通知を取得しない場合、認識しないと判定する。
（３）音声認識部１０４は、前回ユーザＵが復唱した発話音声２０を認識した時点から一定の時間Ｔｘ内に次の発話音声２０を認識できなかった場合に、音声再生部１０２にその旨を通知する。ここで、認識した時点とは、例えば、発話音声２０の入力を検出した時点、または、発話音声２０の認識結果２２が生成された時点のいずれかである。
（４）音声再生部１０２は、音声認識部１０４に区間音声１２を再生した時点（再生開始または再生終了）から一定時間経過後に、発話音声２０を認識できたか否かを問い合わせる。
（５）音声再生部１０２は、音声認識部１０４に区間音声１２を再生した時点（再生開始または再生終了）から一定の時間Ｔｘ内に、マイクロフォン４からユーザＵの発話音声２０の入力があったか否かを検出する。音声再生部１０２は、発話音声２０の入力があった場合は認識したと判定し、入力がなかった場合は認識しないと判定する。

そして、音声再生部１０２は、音声認識部１０４が一定の時間Ｔｘ内にユーザが復唱した発話音声２０を認識しない場合（ステップＳ１１１のＹＥＳ）、区間音声１２の再生を中断する（ステップＳ１１３）。例えば、図８の例では、音声再生部１０２がＳａ１の区間音声１２を再生開始した時点から一定の時間Ｔｘ内の時間ｔ１に音声認識部１０４がＴ１の認識結果２２を生成している。このため、音声再生部１０２は、次の区間のＳａ２の区間音声１２を再生する。

しかし、図８の例では、Ｓａ２の区間音声１２を再生開始した時点から一定の時間Ｔｘが経過しても、ユーザＵが復唱できず、よって、音声認識部１０４から認識結果２２が得られていない。よって、音声再生部１０２は、Ｓａ３の区間音声１２の再生を中断する。

そして、音声再生部１０２は、再生を中断した時点より前の時点から区間音声１２の再生を再開する（ステップＳ１１５）。図８の例では、音声再生部１０２は、Ｓａ３の区間音声１２の再生を中断後に、一つ前のＳａ２の区間音声１２を再度再生する。すると、ユーザＵは当該Ｓａ２の区間音声１２を復唱する。そして、音声認識部１０４は、Ｓｂ２の発話音声２０を認識することができる。

図９は、本実施形態の音声認識装置１００の他の動作例を示すフローチャートである。
図９のフローチャートは、図７のフローチャートのステップＳ１１１とステップＳ１１３の間にステップＳ１２１を含む。

音声再生部１０２は、ユーザＵが復唱した発話音声２０を認識しない場合に（ステップＳ１１１のＹＥＳ）、予め区切られた区間音声１２が再生される区間とは異なる区間（無再生区間）において（ステップＳ１２１のＹＥＳ）、ステップＳ１１３とステップＳ１１５をバイパスして、区間音声１２の再生を中断しない。

音声再生部１０２は、ユーザＵが復唱した発話音声２０を認識しない場合に（ステップＳ１１１のＹＥＳ）、予め区切られた区間音声１２が再生される区間とは異なる区間（無再生区間）でない場合（ステップＳ１２１のＮＯ）、ステップＳ１１３に進み、区間音声１２の再生を中断する。

また、他の例として、音声再生部１０２は、ステップＳ１１１において、再生した区間音声１２の間の無再生区間の時間を計測して、一定の時間Ｔｘに無再生区間の時間間隔ｔｓを加えて判定してもよい。

図１０は、本実施形態の音声認識装置１００のさらなる他の動作例を示すフローチャートである。図１０のフローチャートは、常時、定期的、または要求されたときなどに動作する。

まず、音声再生部１０２は、マイクロフォン４に入力される発話音声２０の入力速度を計測する（ステップＳ１３１）。入力速度は、例えば、単位時間内の単語数、文字数、および音素数の少なくともいずれか一つである。

そして、音声再生部１０２は、発話音声２０の入力速度に合わせて再生速度を調整する（ステップＳ１３３）。再生速度も、入力速度と同様に、単位時間内の単語数、文字数、および音素数の少なくともいずれか一つである。そして、音声再生部１０２は、再生速度を発話音声２０の入力速度以下に調整して区間音声１２を再生する。

本実施形態によれば、上記実施形態と同様な効果を奏するとともに、さらに、音声再生部１０２は、音声認識状態や発話音声２０の入力速度に応じて区間音声１２の再生を制御できるので、ユーザＵの復唱が追いつかなくなった場合にも、作業を停滞させずにスムーズに復帰させることができる。さらに、本実施形態によれば、ユーザＵの復唱の速度に再生速度を合わせることができるので、ユーザＵの発話の速度が速かったり遅かったりした場合にも、適切に区間音声１２の再生を調整できる。これにより、ユーザＵの復唱が追いつかなくなったり、時間を持てあましたりすることなく、快適に作業を続けることができる。

（第３の実施の形態）
本実施形態の音声認識装置１００は、ユーザＵの発話音声２０の認識結果を機械学習する構成を有する点以外は、上記実施形態のいずれかと同じである。本実施形態の音声認識装置１００については、図２を用いて説明する。

＜機能構成例＞
記憶処理部１０８は、音声再生部１０２が所定の区間の区間音声１２を再生した後に、ユーザＵが復唱した発話音声２０に、当該所定の区間の区間音声１２を関連付けて学習データ２４０として記憶させる。

図１１は、本実施形態の学習データ２４０のデータ構造の一例を示す図である。図１１の学習データ２４０は、図６の学習データ２４０に加え、さらに、区間音声１２を関連付けて記憶している。

このようにして生成された学習データ２４０は、ユーザＵ別の音声認識エンジン２００の機械学習に使用される。

本実施形態によれば、上記実施形態と同様な効果を奏するとともに、さらに、このようにして生成されるユーザＵ別の学習データ２４０を用いて、ユーザＵ別の音声認識エンジン２００の各モデルを機械学習させることで、ユーザＵに特化した音声認識エンジン２００を構築することができる。

（第４の実施の形態）
本実施形態の音声認識装置１００は、第１言語と第１言語を第２言語に翻訳して復唱して音声情報をテキストに書き起こす構成を有する点以外は上記実施形態のいずれかと同じである。

＜機能構成例＞
音声再生部１０２は、第１言語（例えば、英語）の音声認識対象音声を再生した後、音声認識部１０４は、復唱した第１言語の前記発話音声と当該第１言語を第２言語（例えば、日本語）に翻訳して発した発話音声２０をそれぞれ音声認識する。
テキスト情報生成部１０６は、音声認識部１０４による認識結果に基づいて、第１言語と第２言語の発話音声２０のテキストデータ３０をそれぞれ生成する。
記憶処理部１０８は、ユーザＵが復唱した第１言語および第２言語の発話音声２０と、音声再生部１０２により再生された第１言語の区間音声１２とを関連付けて記憶させる。

本実施形態では、第１言語は英語、第２言語は日本語として説明する。他の例では、第１言語は方言（例えば、大阪弁）、第２言語は標準語、またはその逆で、第１言語が標準語、第２言語は方言であってもよい。さらなる他の例では、第１言語は敬語、第２言語は敬語以外、またはその逆であってもよい。

＜動作例＞
図１２は、本実施形態の音声認識装置１００の動作例を示すフローチャートである。まず、音声再生部１０２は、第１言語の音声認識の対象音声を所定の区間で区切って（区間音声１２を）再生する（ステップＳ１４１）。そして、ユーザＵはまず第１言語で復唱すると、音声認識部１０４は、ユーザＵが第１言語で復唱した発話音声２０を認識する（ステップＳ１４３）。さらに、ユーザＵは第２言語で復唱すると、音声認識部１０４は、ユーザＵが第２言語で復唱した発話音声２０を認識する（ステップＳ１４５）。

テキスト情報生成部１０６は、ステップＳ１４３とステップＳ１４５で認識された発話音声２０の認識結果２２に基づいて、テキストデータ３０をそれぞれ生成する（ステップＳ１４７）。

記憶処理部１０８は、ユーザＩＤと、第１言語の発話音声２０と、第２言語の発話音声２０と、音声再生部１０２により再生された第１言語の対象音声とを関連付けて、翻訳エンジンの学習データ３４０として記憶装置１１０に記憶する（ステップＳ１４９）。

図１３は、学習データ３４０のデータ構造の例を示す図である。図１３（ａ）の例では、学習データ３４０は、音声再生部１０２により再生された区間音声１２と、同じ区間の第１言語の発話音声２０と第２言語の発話音声２０とを関連付けて記憶する。また、図１３（ｂ）の例のように、学習データ３４０は、各言語の認識結果も関連付けて記憶してもよい。

さらに、記憶処理部１０８は、ステップＳ１４７において生成された第１言語のテキストデータ３０と第２言語のテキストデータ３０とを関連付けて記憶装置１１０に記憶させる（ステップＳ１５１）。

本実施形態によれば、第１言語を聞いたユーザＵが、第１言語で復唱した音声情報と、第１言語を第２言語で翻訳して発話した音声情報とを認識し、テキスト情報を生成するとともに、さらに、第１言語を復唱した発話音声２０と、第２言語の発話音声２０と、音声再生部１０２により再生された区間音声１２をそれぞれ関連付けて記憶させることができる。これにより、上記実施形態と同様な効果を奏するとともに、さらに、例えば、翻訳エンジンの学習データ３４０として、これらの情報を用いることができる。

（第５の実施の形態）
本実施形態の音声認識装置１００は、未知語を登録する構成を有する点以外は、上記実施形態のいずれかと同じである。

＜機能構成例＞
図１４は、本実施形態の音声認識装置１００の機能的な構成例を示す機能ブロック図である。
音声認識装置１００は、上記実施形態の音声認識装置１００の構成に加え、さらに、登録部１２０を有する。
登録部１２０は、ユーザＵが発話した言葉の中で、音声認識部１０４により認識できなかった言葉を未知語として辞書に登録する。

＜動作例＞
図１５は、本実施形態の音声認識装置１００の動作例を示すフローチャートである。このフローチャートは、例えば、図４のステップＳ１０３で音声認識部１０４がユーザＵの発話音声２０を認識できなかったとき（ステップＳ１５１のＹＥＳ）に開始する。そして、登録部１２０は、ユーザＵが発話した言葉の中で、音声認識部１０４により認識できなかった言葉を未知語として辞書に登録する（ステップＳ１５３）。

ここで、辞書とは、本実施形態のユーザＵ毎の言語モデル２１０、音響モデル２２０および単語辞書２３０等の各モデルと、ユーザに特化されない汎用の各モデルの両方を含む。各辞書のデータ構造は、音声情報を、単語、ｎ組の単語列、音素列など異なる単位の少なくともいずれか一つで登録することができる。よって、音声認識部１０４により認識できなかった言葉の音声情報は、各単位にそれぞれ分解されてそれぞれ未知語として辞書登録されてよい。

そして、未知語として登録された言葉は、後述する実施形態と同様な編集機能によりユーザＵにより単語登録できてよい。あるいは、機械学習などにより学習されてもよい。

本実施形態によれば、音声認識部１０４により認識できなかった言葉を未知語として辞書に登録することができるので、上記実施形態と同様な効果を奏するとともに、さらに、音声認識エンジン２００を育てていくことができ、認識精度を向上させることができる。

（第６の実施の形態）
本実施形態の音声認識装置１００は、認識対象音声データ１０を編集する構成を有する点以外は、上記実施形態のいずれかと同じである。

＜機能構成例＞
図１６は、本実施形態の音声認識装置１００の機能的な構成例を示す機能ブロック図である。
本実施形態の音声認識装置１００は、上記実施形態の音声認識装置１００の構成に加え、さらに、表示処理部１３０を有する。表示処理部１３０は、テキスト情報生成部１０６に生成されたテキストデータ３０を表示装置１３２に表示させる。

テキストデータ３０は、テキスト情報生成部１０６によりテキストデータ３０に認識結果２２が追加されている度に更新されて表示されてもよいし、認識対象音声データ１０の全ての再生、あるいは、所定の範囲までの再生が終了した時点までの再生音声に対応する範囲のテキストデータ３０を、再生終了時以降に表示させてもよい。ユーザＵの操作指示を受け付けて表示させてもよい。

さらに、テキスト情報生成部１０６は、表示装置１３２に表示されたテキストデータ３０の編集操作を受け付け、編集操作に従い、テキストデータ３０を更新する。キーボード、マウス、タッチパネル、操作スイッチ等の入力装置１３４を用いてユーザＵは編集操作を行うことができる。

さらに、記憶処理部１０８は、更新されたテキストデータ３０に対応する学習データ２４０の認識結果を更新してもよい。

表示装置１３２は、音声認識装置１００に含まれてもよいし、外部の装置であってもよい。表示装置１３２は、例えば、液晶ディスプレイ、プラズマディスプレイ、ＣＲＴ（Cathode Ray Tube）ディスプレイ、有機ＥＬ（ElectroLuminescence）ディスプレイ等である。

＜動作例＞
図１７は、本実施形態の音声認識装置１００の動作例を示すフローチャートである。
表示処理部１３０は、テキスト情報生成部１０６により生成されたテキストデータ３０を表示装置１３２に表示させる（ステップＳ１６１）。そして、編集操作を受け付ける操作メニューによりユーザＵの編集操作を受け付ける（ステップＳ１６３）。

テキストデータ３０を表示する画面では、例えば、音声認識部１０４による認識結果２２の尤度が基準値以下の言葉について、他の部分と識別可能なように、例えば、強調表示させて、ユーザＵに確認を促してもよい。ユーザＵは強調表示された言葉が正しいかを確認し、必要に応じて編集することができる。

そして、テキスト情報生成部１０６は、ステップＳ１６３で受け付けた編集操作に従い、テキストデータ３０を更新する（ステップＳ１６５）。

この構成によれば、ユーザＵは音声を書き起こしされたテキストデータ３０を確認して必要に応じて訂正することができるので、書き起こしされたテキストデータ３０の正確さが向上する。

以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。

例えば、表示処理部１３０により表示されるテキストデータ３０の表示画面において、テキストの範囲の指定をユーザＵの操作により受け付けると、音声再生部１０２は、受け付けた部分のテキストに関連付けられている区間音声１２を再生してもよい。

この構成によれば、テキストデータ３０の元となる区間音声１２を再生させることで、テキストデータ３０の正否を確認することができ、さらに、編集操作により訂正を行うこともできる。

さらに、音声認識装置１００は、学習データのユーザＩＤが示すユーザに対応する、ユーザ別に存在する音声認識エンジン２００のうちの一つを特定する特定部（不図示）をさらに備えてもよい。特定部により、学習データのユーザＩＤに対応する音声認識エンジン２００が特定され、当該学習データを特定された音声認識エンジン２００に学習させることができる。

以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
なお、本発明において利用者に関する情報を取得、利用する場合は、これを適法に行うものとする。

上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下に限られない。
１．所定の区間毎に区切られた音声認識の対象音声を、前記所定の区間毎に再生する音声再生手段と、
前記対象音声毎に、ユーザが当該対象音声を復唱した発話音声を認識する音声認識手段と、
前記音声認識手段の認識結果に基づいて、当該発話音声のテキスト情報を生成するテキスト情報生成手段と、
前記ユーザ別の識別情報と、前記発話音声および当該発話音声に対応する前記認識結果と、を関連付けて学習データとして記憶させる記憶手段と、
を備え、
前記音声認識手段は、前記ユーザ別の学習データにより学習された認識エンジンを用いて認識する、音声認識装置。
２．前記音声再生手段は、前記音声認識手段が一定の時間内に前記ユーザが復唱した前記発話音声を認識しない場合、前記対象音声の再生を中断し、その後、前記再生を中断した時点より前の時点の区間から前記対象音声の再生を再開する、
１．に記載の音声認識装置。
３．前記音声再生手段は、予め区切られた前記対象音声が再生される区間とは異なる区間において、前記ユーザが復唱した前記発話音声を認識しない場合に、前記対象音声の再生を中断しない、
２．に記載の音声認識装置。
４．前記音声再生手段は、ある区間の前記対象音声の再生速度を、当該区間より前の区間に対して前記ユーザが復唱した前記発話音声を入力したときの音声入力速度に応じて、変化させる、
１．から３．のいずれか一つに記載の音声認識装置。
５．前記記憶手段は、前記音声再生手段が前記所定の区間の対象音声を再生した後に、前記ユーザが復唱した前記発話音声に、当該所定の区間の対象音声を関連付けて記憶させる、
１．から４．のいずれか一つに記載の音声認識装置。
６．前記音声再生手段は、第１言語の音声認識対象音声を再生した後、
前記音声認識手段は、復唱した前記第１言語の前記発話音声と当該第１言語を第２言語に翻訳して発した前記発話音声をそれぞれ音声認識し、
前記テキスト情報生成手段は、前記音声認識手段による認識結果に基づき、前記第１言語と前記第２言語の前記発話音声の前記テキスト情報をそれぞれ生成し、
前記記憶手段は、前記ユーザが復唱した前記第１言語の前記発話音声と、前記第２言語の前記発話音声と、前記音声再生手段により再生された前記第１言語の対象音声とを関連付けて記憶させる、
１．から５．のいずれか一つに記載の音声認識装置。
７．前記ユーザが発話した言葉の中で、前記音声認識手段により認識できなかった言葉を未知語として辞書に登録する登録手段をさらに備える、
１．から６．のいずれか一つに記載の音声認識装置。
８．前記テキスト情報を表示する表示手段をさらに備える、
１．から７．のいずれか一つに記載の音声認識装置。
９．前記テキスト情報生成手段は、前記表示手段に表示された前記テキスト情報の編集操作を受け付け、前記編集操作に従い、前記テキスト情報を更新する、
８．に記載の音声認識装置。

１０．音声認識装置が、
所定の区間毎に区切られた音声認識の対象音声を、前記所定の区間毎に再生し、
前記対象音声毎に、ユーザが当該対象音声を復唱した発話音声を認識し、
前記発話音声の認識結果に基づいて、当該発話音声のテキスト情報を生成し、
前記ユーザ別の識別情報と、前記発話音声および当該発話音声に対応する前記認識結果と、を関連付けて学習データとして記憶させ、
前記発話音声を認識する際、前記ユーザ別の学習データにより学習された認識エンジンを用いて認識する、音声認識方法。
１１．前記音声認識装置が、
一定の時間内に前記ユーザが復唱した前記発話音声を認識しない場合、前記対象音声の再生を中断し、その後、前記再生を中断した時点より前の時点の区間から前記対象音声の再生を再開する、
１０．に記載の音声認識方法。
１２．前記音声認識装置が、
予め区切られた前記対象音声が再生される区間とは異なる区間において、前記ユーザが復唱した前記発話音声を認識しない場合に、前記対象音声の再生を中断しない、
１１．に記載の音声認識方法。
１３．前記音声認識装置が、
ある区間の前記対象音声の再生速度を、当該区間より前の区間に対して前記ユーザが復唱した前記発話音声を入力したときの音声入力速度に応じて、変化させる、
１０．から１２．のいずれか一つに記載の音声認識方法。
１４．前記音声認識装置が、
前記所定の区間の対象音声を再生した後に、前記ユーザが復唱した前記発話音声に、当該所定の区間の対象音声を関連付けて記憶させる、
１０．から１３．のいずれか一つに記載の音声認識方法。
１５．前記音声認識装置が、
第１言語の音声認識対象音声を再生した後、
復唱した前記第１言語の前記発話音声と当該第１言語を第２言語に翻訳して発した前記発話音声をそれぞれ音声認識し、
認識結果に基づき、前記第１言語と前記第２言語の前記発話音声の前記テキスト情報をそれぞれ生成し、
前記ユーザが復唱した前記第１言語の前記発話音声と、前記第２言語の前記発話音声と、再生された前記第１言語の対象音声とを関連付けて記憶させる、
１０．から１４．のいずれか一つに記載の音声認識方法。
１６．前記音声認識装置が、さらに、
前記ユーザが発話した言葉の中で、認識できなかった言葉を未知語として辞書に登録する、
１０．から１５．のいずれか一つに記載の音声認識方法。
１７．前記音声認識装置が、さらに、
前記テキスト情報を表示部に表示する、
１０．から１６．のいずれか一つに記載の音声認識方法。
１８．前記音声認識装置が、
前記表示部に表示された前記テキスト情報の編集操作を受け付け、前記編集操作に従い、前記テキスト情報を更新する、
１７．に記載の音声認識方法。

１９．コンピュータに、
所定の区間毎に区切られた音声認識の対象音声を、前記所定の区間毎に再生する手順、
前記対象音声毎に、ユーザが当該対象音声を復唱した発話音声を前記ユーザ別の学習データにより学習された認識エンジンを用いて認識する手順、
前記発話音声の認識結果に基づいて、当該発話音声のテキスト情報を生成する手順、
前記ユーザ別の識別情報と、前記発話音声および当該発話音声に対応する前記認識結果と、を関連付けて学習データとして記憶させる手順、を実行させるためのプログラム。
２０．一定の時間内に前記ユーザが復唱した前記発話音声を認識しない場合、前記対象音声の再生を中断する手順、
その後、前記再生を中断した時点より前の時点の区間から前記対象音声の再生を再開する手順、をコンピュータに実行させるための、
１９．に記載のプログラム。
２１．予め区切られた前記対象音声が再生される区間とは異なる区間において、前記ユーザが復唱した前記発話音声を認識しない場合に、前記対象音声の再生を中断する手順を実行しない手順、をコンピュータに実行させるための、
２０．に記載のプログラム。
２２．ある区間の前記対象音声の再生速度を、当該区間より前の区間に対して前記ユーザが復唱した前記発話音声を入力したときの音声入力速度に応じて、変化させる手順、をコンピュータに実行させるための、
１９．から２１．のいずれか一つに記載のプログラム。
２３．前記所定の区間の対象音声を再生した後に、前記ユーザが復唱した前記発話音声に、当該所定の区間の対象音声を関連付けて記憶させる手順、をコンピュータに実行させるための、
１９．から２２．のいずれか一つに記載のプログラム。
２４．第１言語の音声認識対象音声を再生した後、
復唱した前記第１言語の前記発話音声と当該第１言語を第２言語に翻訳して発した前記発話音声をそれぞれ音声認識する手順、
認識結果に基づき、前記第１言語と前記第２言語の前記発話音声の前記テキスト情報をそれぞれ生成する手順、
前記ユーザが復唱した前記第１言語の前記発話音声と、前記第２言語の前記発話音声と、再生された前記第１言語の対象音声とを関連付けて記憶させる手順、をコンピュータに実行させるための、
１９．から２３．のいずれか一つに記載のプログラム。
２５．前記ユーザが発話した言葉の中で、認識できなかった言葉を未知語として辞書に登録する手順、をさらにコンピュータに実行させるための、
１９．から２４．のいずれか一つに記載のプログラム。
２６．前記テキスト情報を表示部に表示する手順、をさらにコンピュータに実行させるための、
１９．から２５．のいずれか一つに記載のプログラム。
２７．前記表示部に表示された前記テキスト情報の編集操作を受け付け、前記編集操作に従い、前記テキスト情報を更新する手順、をコンピュータに実行させるための、
２６．に記載のプログラム。

この出願は、２０１９年９月２７日に出願された日本出願特願２０１９－１７６４８４号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１音声認識システム
３通信ネットワーク
４マイクロフォン
６スピーカ
１０認識対象音声データ
１２区間音声
２０発話音声
２２認識結果
３０テキストデータ
１００音声認識装置
１０２音声再生部
１０４音声認識部
１０６テキスト情報生成部
１０８記憶処理部
１１０記憶装置
１２０登録部
１３０表示処理部
１３２表示装置
１３４入力装置
２００音声認識エンジン
２１０言語モデル
２２０音響モデル
２３０単語辞書
２４０学習データ
３４０学習データ
１０００コンピュータ
１０１０バス
１０２０プロセッサ
１０３０メモリ
１０４０ストレージデバイス
１０５０入出力インタフェース
１０６０ネットワークインタフェース

Claims

所定の区間毎に区切られた音声認識の対象音声を、前記所定の区間毎に再生する音声再生手段と、
前記対象音声毎に、ユーザが当該対象音声を復唱した発話音声を認識する音声認識手段と、
前記音声認識手段の認識結果に基づいて、当該発話音声のテキスト情報を生成するテキスト情報生成手段と、
前記ユーザ別の識別情報と、前記発話音声および当該発話音声に対応する前記認識結果と、を関連付けて学習データとして記憶させる記憶手段と、
を備え、
前記音声認識手段は、前記ユーザ別の学習データにより学習された認識エンジンを用いて認識し、
前記テキスト情報を表示する表示手段をさらに備え、
前記表示手段は、前記テキスト情報のうち、前記音声認識手段による前記認識結果の尤度が基準値以下の言葉について、他の部分と識別可能に表示し、
前記テキスト情報生成手段は、前記表示手段に表示された前記テキスト情報の編集操作を受け付け、前記編集操作に従い、前記テキスト情報を更新し、
前記音声再生手段は、前記音声認識手段が一定の時間内に前記ユーザが復唱した前記発話音声を認識しない場合、前記対象音声の再生を中断し、その後、前記再生を中断した時点より前の時点の区間から前記対象音声の再生を再開する、音声認識装置。
前記音声再生手段は、予め区切られた前記対象音声が再生される区間とは異なる区間において、前記ユーザが復唱した前記発話音声を認識しない場合に、前記対象音声の再生を中断しない、
請求項１に記載の音声認識装置。
前記音声再生手段は、ある区間の前記対象音声の再生速度を、当該区間より前の区間に対して前記ユーザが復唱した前記発話音声を入力したときの音声入力速度に応じて、変化させる、
請求項１または２に記載の音声認識装置。
前記記憶手段は、前記音声再生手段が前記所定の区間の対象音声を再生した後に、前記ユーザが復唱した前記発話音声に、当該所定の区間の対象音声を関連付けて前記学習データとして記憶させる、
請求項１から３のいずれか一項に記載の音声認識装置。
前記音声再生手段が、第１言語の音声認識対象音声を再生した後、
前記音声認識手段は、復唱した前記第１言語の前記発話音声と当該第１言語を第２言語に翻訳して発した前記発話音声をそれぞれ音声認識し、
前記テキスト情報生成手段は、前記音声認識手段による認識結果に基づき、前記第１言語と前記第２言語の前記発話音声の前記テキスト情報をそれぞれ生成し、
前記記憶手段は、前記ユーザが復唱した前記第１言語の前記発話音声と、前記第２言語の前記発話音声と、前記音声再生手段により再生された前記第１言語の対象音声とを関連付けて翻訳エンジンの学習データとして記憶させる、
請求項１から４のいずれか一項に記載の音声認識装置。
前記ユーザが発話した言葉の中で、前記音声認識手段により認識できなかった言葉を未知語として辞書に登録する登録手段をさらに備え、
前記登録手段は、
前記テキスト情報のうち、前記未知語を、前記表示手段により、識別可能に表示させ、
前記テキスト情報生成手段により、前記編集操作を受け付け、
前記編集操作された前記言葉を前記辞書に単語登録する、
請求項１から５のいずれか一項に記載の音声認識装置。
音声認識装置が、
所定の区間毎に区切られた音声認識の対象音声を、前記所定の区間毎に再生し、
前記対象音声毎に、ユーザが当該対象音声を復唱した発話音声を認識し、
前記発話音声の認識結果に基づいて、当該発話音声のテキスト情報を生成し、
前記ユーザ別の識別情報と、前記発話音声および当該発話音声に対応する前記認識結果と、を関連付けて学習データとして記憶させ、
前記発話音声を認識する際、前記ユーザ別の学習データにより学習された認識エンジンを用いて認識し、
前記テキスト情報を表示し、
前記テキスト情報を表示する際、前記テキスト情報のうち、前記認識結果の尤度が基準値以下の言葉について、他の部分と識別可能に表示し、
前記テキスト情報を生成する際、表示された前記テキスト情報の編集操作を受け付け、前記編集操作に従い、前記テキスト情報を更新し、
前記発話音声を認識する際に一定の時間内に前記ユーザが復唱した前記発話音声を認識しない場合、前記対象音声の再生を中断し、その後、前記再生を中断した時点より前の時点の区間から前記対象音声の再生を再開する、する、音声認識方法。
コンピュータに、
所定の区間毎に区切られた音声認識の対象音声を、前記所定の区間毎に再生する手順、
前記対象音声毎に、ユーザが当該対象音声を復唱した発話音声を前記ユーザ別の学習データにより学習された認識エンジンを用いて認識する手順、
前記発話音声の認識結果に基づいて、当該発話音声のテキスト情報を生成する手順、
前記ユーザ別の識別情報と、前記発話音声および当該発話音声に対応する前記認識結果と、を関連付けて学習データとして記憶させる手順、
前記テキスト情報を表示する手順、を実行させ、
前記表示する手順において、前記テキスト情報のうち、前記認識結果の尤度が基準値以下の言葉について、他の部分と識別可能に表示し、
前記テキスト情報を生成する手順において、前記表示する手順において表示された前記テキスト情報の編集操作を受け付け、前記編集操作に従い、前記テキスト情報を更新し、
前記発話音声を認識する手順において一定の時間内に前記ユーザが復唱した前記発話音声を認識しない場合、前記対象音声を再生する手順において、前記対象音声の再生を中断し、その後、前記再生を中断した時点より前の時点の区間から前記対象音声の再生を再開する、プログラム。