JP7288530B1

JP7288530B1 - システムおよびプログラム

Info

Publication number: JP7288530B1
Application number: JP2022036531A
Authority: JP
Inventors: 陸荒川; 大夢矢倉
Original assignee: Individual
Current assignee: Individual
Priority date: 2022-03-09
Filing date: 2022-03-09
Publication date: 2023-06-07
Anticipated expiration: 2042-03-09
Also published as: JP2023131648A

Abstract

【課題】音声認識されることを意識していない音声データからテキストデータへの変換を容易に行うシステムを提供すること【解決手段】取得した音声データを、音声区間検出部２１で複数のセグメントに分割し、音声再生部２２がその複数のセグメントを１つずつ再生する。ユーザは、再生された音声を聞いて同じ内容を発話するので、第１音声認識部２３がそのユーザの発話を音声認識して音声認識テキストを得る。必要に応じてテキスト編集部２４にてテキストを修正し、確定した編集済みテキストに基づいて出力処理部２５が音声データのテキストデータを作成する。また出力処理部は、ユーザの操作に基づき、セグメントの再生条件を自動的に調整する。【選択図】図２

Description

本発明は、音声データをテキスト化するためのシステムおよびプログラムに関するものである。

音声をテキストデータに変換する書き起こし・テープ起こしの重要性は、取得したテキストデータを様々な場面で活用できることから、広く認識されている。また音声データとそれに紐づけられたテキストデータは、音声合成、音声認識、音声変換など、様々な音声処理モデルの開発にも活用できる。

例えば、音声変換においては、１時間分ほどの特定の人の音声データとテキストデータからその人の音声モデルを作成することができ、それを使うことで声をその人の声に変換することが可能である。このように対象者の音声を変換し、異なる人物が話しているような合成音声を生成し、出力する装置として、例えば特許文献１に開示されるニューラルネットワークを用いたリアルタイム音声変換を行う音声変換装置がある。この音声変換装置は、対象者の音声から複数の部分音声の信号を取得し、取得した信号から所定の特徴量を抽出し、抽出した特徴量を、ニューラルネットワークを用いて異なる人物の音声の声色の変換特徴量に変換し、その変換した変換特徴量に基づいて合成音声を生成し、スピーカーから出力するようにしている。

この装置を用いて自分の声を自在に他者の声に変換することで、自身のメンタルや行動にポジティブな影響を与えること等への応用が期待される。例えば、高齢者が若者のはつらつとした張りのある声にリアルタイムで変換して発声すると、元気になり、活動量が増えることがある。

特開２０２１－３３１２９号公報

上述したように音声変換においては、１時間分ほどの特定の人の音声データとテキストデータからその人の音声モデルを作成する必要があるが、以下に説明するように音声モデルの作成作業、特にテキストデータの作成作業は、煩雑である。

すなわち、音声データ自体は、例えば、インターネット、テレビ、ラジオ等から流れてくる音声や、過去に録音した音声などを流用することで比較的簡単に入手できる。一方、そのように入手した音声データをテキストデータに変換する作業は非常に手間が掛かる。すなわち、音声データを再生しつつ行う書き起こし・テープ起こし作業は、録音時間の１０倍近い時間が掛かり、煩雑である。

また、上記の入手した音声データを音声認識してテキストデータに変換しようとしても、一般に利用できる音声認識システムでは、認識精度が低く、効率よくテキストデータに変換し適切な音声変換のためのデータを収集することができない。これは、入手した変換先の音声データは、元々音声認識をすることを考慮して発話されたもので無いことに加え、周囲の雑音がのったり、他の人の声が重なったりしてノイズが多く含まれることも一因と考えられる。

さらに、例えば音声変換や音声合成において、出力する音声のバリエーションを増やすためには、バリエーション毎の音声モデルが必要となる。また、音声認識においても、精度を高めるためには様々な人の音声モデルを収集することが重要な要素の一つとなる。よって、音声処理モデルの開発にあたっては、数多くの音声モデルを収集するのが好ましいが、音声モデルの作成の煩雑さは、収集する音声モデルのバリエーションを増やすと、相乗的に増え、また、結果として収集可能な音声モデルの数に制限がかかってしまうおそれがある。よって、効率よく音声モデルを作成する技術の開発が望まれている。

上述した課題はそれぞれ独立したものとして記載しているものであり、本発明は、必ずしも記載した課題の全てを解決できる必要はなく、少なくとも一つの課題が解決できればよい。またこの課題を解決するための構成についても単独で分割出願・補正等により権利取得する意思を有する。

（１）上述した課題を解決するために、本発明のシステムは、取得した音声データを、複数のセグメントに分割し、その複数のセグメントを１つずつ再生する機能と、再生した前記セグメントの音声を聞いたユーザが同じ内容を発話した音声に基づき音声認識して得られた音声認識テキストに基づいて前記音声データのテキストデータを作成する機能を備えた。

（２）前記音声認識テキストを編集する機能を備え、その編集された編集テキストと、前記音声認識テキストとを比較し、相違箇所から誤認識されやすい発音を求め、その求めた結果を表示する機能を備えるとよい。

（３）前記結果は、処理中のセグメントの音声データに限らず履歴を表示するとよい。

（４）前記複数のセグメントを１つずつ再生する手段は、現在再生対象のセグメントの音声データを最後まで再生すると再生を停止する機能と、再生中に受け付けた一時停止指示に基づき再生を一時停止する機能を備え、前記再生中に前記一時停止をした場合に、前記セグメントの音声の再生速度を遅くする処理と、前記セグメントを構成する時間を短くする処理の少なくとも一方を行う調整機能を備えるとよい。

（５）前記処理中のセグメントに対する音声認識結果を消去し、そのセグメントについての音声の再生を行う機能を備え、その機能が実行された場合、前記セグメントの音声の再生速度を遅くする処理と、前記セグメントを構成する時間を短くする処理の少なくとも一方を行う調整機能を備えるとよい。

（６）前記テキストデータと、同じセグメントについての前記音声データと紐付けて記憶する機能を備えるとよい。

（７）前記音声認識テキストを編集する機能を備え、編集した箇所に基づくテキストデータと、それに対応する前記音声データとをペアにした教師データを用いて前記音声認識に用いるモデルを学習させる機能を備えるとよい。

（８）本発明に係るプログラムは、（１）から（６）のいずれか１つに記載のシステムの機能をコンピュータに実現させるためのプログラムとするとよい。

本発明は、取得した音声データに対応するテキストデータを作成するに際し、その音声データではなく、その音声データを聞いたユーザが同じ内容を発話した際の音声に基づき音声認識をするので、音声データが音声認識しやすい品質か否かにかかわらず容易にテキストデータへの変換が行える。

本発明に係るシステムの好適な一実施形態を示す図である。処理装置の機能に着目したブロック図である。表示画面の一例を示す図である。

以下、本発明の好適な実施形態について図面に基づき、詳細に説明する。なお、本発明は、これに限定されて解釈されるものではなく、本発明の範囲を逸脱しない限りにおいて、当業者の知識に基づいて、種々の変更、修正、改良を加え得るものである。

図１は、本発明に係る情報伝達システムの好適な一実施形態を示している。同図に示すように、本実施形態のシステム１０は、処理装置１１と、その処理装置１１に接続される入力装置１２、表示装置１３、マイクロフォン１４，音出力装置１５並びに記憶装置１６等を備える。

処理装置１１は、パーソナルコンピュータその他の演算処理能力を有するコンピュータ等であり、実装されたアプリケーションプログラムを実行する機能等を備える。入力装置１２は、例えばキーボード、マウス、タッチパネルなどの処理装置１１に対して情報，命令を入力する装置である。音出力装置１５は、音声その他の各種の音を出力する装置であり、例えばスピーカーやイヤフォン・ヘッドフォンなどがある。より好ましくは、イヤフォンやヘッドフォンのように外部に元が漏れずユーザにのみ聞こえるものとするとよい。また、例えばヘッドセットのようにマイクロフォン１４と音出力装置１５を一体化した装置を用いるとよい。記憶装置１６は、処理装置１１内のハードディスクその他の内部記憶装置でもよいし、処理装置１１に接続される外付けの外部記憶装置でもよい。

上記の構成のシステム１０は、例えば特許文献１等に開示されるリアルタイムで音声変換を行うシステムを実現するための変換後の音声のための音声データとテキストデータとを関連付けた音声情報を収集するためのシステムであり、特に音声データを書き起こし・テキスト化する処理を支援するシステムである。

記憶装置１６は、各種の方法で入手した変換後の音声のための音声データが記憶保持されている。この記憶装置１６が記憶する音声データは、例えば、インターネットの動画サイトにアップされているもの、テレビやラジオ等から流れているもの、各種の機会に録音したものなど、普通に話しているときのもの等を録音して記録したものである。この音声データは、特別に用意した原稿を朗読するものではなく、また、音声認識をすることを意識してクリアーに話したものではなく、普通に発話しているときのものである。このように特段意識せずに普通に話しているときの音声データを利用することで、必要な時間分の音声データの収集が容易に行える。一方、このように音声認識を意識していない音声データの場合、音声認識の精度が低下し、その音声データをそのまま音声認識処理しても、正しいテキストデータへの変換が行いにくいが、本実施形態では以下のようにすることで正しいテキストデータ化を行えるようにしている。

そして本実施形態では、記憶装置１６に記憶された音声データをテキスト化するに際し、ＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）による音声認識を用いるが、このとき音声認識のために処理装置１１に与える音声は、変換対象である記憶された音声データではなく、その音声データを聞いたユーザが同じ内容を発声したユーザの音声とするようにした。そして、係るユーザが、音声認識を考慮して発話することで、テキストデータに正しく変換され、音声データとテキストデータを関係づけた音声情報を効率よく収集できる。

すなわち、変換したい声の持ち主の人が発声している音声データを直接ＡＩに与えて音声認識すると、テキストデータに変換した際の精度が悪くなる。すなわち、普段の会話やノイズがのっていると、最新のＡＩでも誤認識が見られるし、複数の人がしゃべっている会話だと、音声がかぶることがあり、正しく認識できないことがある。よって、上記の収集し記憶した音声データをそのまま処理装置１１に与えて音声認識しても、適切なテキストデータに変換できない。一方、人間は、そのようなノイズや音かぶり等を自動的に聞き分けることができる。そこで、収、綺麗や言葉で話すことが出来、ＡＩの音声認識精度を上げることできる。またユーザは、タイプ入力をするのでなく、単に聞いた文章をそのまま発話するだけでよいので負担は軽い。

さらに本実施形態のシステム１０は、以下に説明するように上記の処理をよりスムーズに行うための様々な機能を有するユーザインタフェースを備えている。図２は、機能面に着目した処理装置１１のブロック構成図である。同図に示すように、音声区間検出部２１、音声再生部２２，第１音声認識部２３、テキスト編集部２４、出力処理部２５及びフィードバック計算部２６等を備える。さらに本実施形態では、処理装置１１は、変換対象の音声データに対する音声認識処理を行う機能を実現するための第２音声認識部２７及び認識結果参考表示部２８等も備える。

音声区間検出部２１は、記憶装置１６に記憶保持されている処理対象の音声データを読み出し、その音声波形を解析し、有声区間（話している箇所）と無声区間（話していない箇所）を、細かい窓幅単位で区別する。次いで音声区間検出部２１は、有声区間ごとの合併などを行い、再生単位のセグメントを決める。

例えば１ファイル分の音声データを連続して再生し続けると、それを聞いて同じ内容を話すことは難しい。そこで一定時間毎に区切ったセグメントを作成し、セグメント単位で再生を行うようにした。そして、効率よくテキストに変換するように、上述したように無声区間を省き、有声区間を時系列でつなげるとともに、つなげた後の音声データを先頭から設定された時間間隔で区切り、上述したように個々のセグメントを作成する。さらに音声区間検出部２１は、このようにして作成した有声区間をセグメントに区切った音声区間情報を、記憶装置１６或いは処理装置１１内のキャッシュメモリ等の記憶手段に格納する。

また、セグメントの記録時間の単位は、例えば数秒～２０秒程度とするとよい。この時間は、例えば初期値（例えば１０秒）を設定しておき、図示省略するモード設定画面から時間を変更可能に構成するとよい。このようにすると、音声区間検出部２１は、モードの変更が行われない状態では、初期値に従ってセグメントを作成する。ユーザは、モード設定を行い、セグメントの時間を、聞き取った後或いは聞きながら話せる時間に変更することで、ストレスを可及的に抑制しスムーズで適切なテキストデータへの変換が可能となる。また、後述するようにこの時間を自動的に調整する機能を備えるとよい。

また、音声区間情報は、音声データをセグメント単位に分けて別々のファイルとして記録するようにしてもよいが、例えば有声区間をつなげた音声データを一つのファイルとして記録し、その一つのファイルの音声データに対し、セグメントの区切りがわかるようにフラグ・ポインタ等を付すなどしてセグメント単位で再生するための情報を関連付けて記録するとよい。このように１つのファイルにすることで、例えば、上述したようにセグメントの時間単位を変更した場合、セグメントの区切りを示す情報を変えるだけでよいので好ましい。

一方、処理装置１１は、本システムの起動に伴い、表示装置１３に図３に示すようなユーザインタフェースの操作・結果画面を表示する。係る画面の上方には、左から順に再生ボタン３１、再生時間表示部３２，音量調整ボタン３３等が配置され、その下側には再生速度情報表示部３４、読み上げ長さ表示部３５が配置され、それらの右側に、「次へ」ボタン３６と、「やり直す」ボタン３７が配置されるレイアウトをとる。さらに上記の各種の指示を与える領域の下方には、上から順に自動認識結果表示部４１、読み上げ結果表示部４２、確定済みデータ表示部４３が配置されるレイアウトをとる。ユーザインタフェースを構成する各処理部は、以下に説明するようにこの操作・結果画面を用いた指示を受けて所定処理を行い、実行結果を表示する処理を行う。

音声再生部２２は、音声区間検出部２１が作成した音声区間情報に基づき、１つのセグメント単位での再生を制御する。入力装置１２を構成するマウス等の操作に基づき再生ボタン３１がクリックされたのを検知すると、音声再生部２２は、現在の処理対象の１つのセグメントの音声を再生する。そして、音声再生部２２は、現在再生中のセグメントを最後まで再生すると、再生を停止し、待機する。

さらに音声再生部２２は、１つのセグメントの音声を最後まで再生し、待機中に再生ボタン３１がクリックされたのを検知すると、今再生したセグメントの音声データを最初から再度１回再生する。このようにすることで、ユーザは聞き漏らしたり、確信が持てなかったりする内容を確認することができる。

また、再生中に再生ボタン３１がクリックされると、音声再生部２２は再生を中断する。そして中断している状態で再生ボタン３１がクリックされると、音声再生部２２は一時停止した位置から再生を再開する。この再生した音声は、音出力装置１５から出力され、ユーザが聞くことができる。

なお再生ボタン３１は、状態により表示するアイコンを変化させるとよく、例えば、再生をしていない状態（一時停止中を含む）では図示するように横△のマークを表示し、再生中は別の姿態のアイコン（例えば、縦棒を横に２本並べたもの等）とするとよい。

ユーザは、音出力装置１５から出力される音声を聞き取り、同じ内容の文章を発話する。このユーザが発生した音声は、マイクロフォン１４を介して処理装置１１に入力され第１音声認識部２３に与えられる。第１音声認識部２３は、リアルタイムに音声認識を行いテキストデータへ変換し、その認識結果（音声認識テキスト）を読み上げ結果表示部４２に表示する。第１音声認識部２３は、与えられた音声をリアルタイムにテキストデータに変換するもので、ＡＩを用いた音声認識機能により実現でき、係る機能を処理装置１１内に実装してもよいし、各種の音声認識を行うクラウドサービス（例えばGoogle Speech API等）を利用してもよい。クラウドサービスを利用する場合、第１音声認識部２３は、マイクロフォン１４を介して取得した音声データをクラウドに送信し、認識結果（テキストデータ）を受信し、受信したテキストデータ（音声認識テキスト）を読み上げ結果表示部４２に表示する。また、第１音声認識部２３は、テキストデータへ変換した音声認識テキストを、所定の記憶手段に記憶する。

また、第１音声認識部２３は、マイクロフォン１４から入力される音声を常時テキストデータに変換するようにしてもよいが、好ましくは音声再生部２２の動作に関連して動作するとよい。例えば、音声再生部２２における１つのセグメントの再生が終了し、音声認識処理も終了すると、一旦音声の受け付けを終了する。そして、次に音声再生部２２が再生を開始すると、第１音声認識部２３はマイクロフォン１４から入力される音声を受け付け、音声認識処理によるテキストデータへの変換を行うとよい。このようにすることで、一旦音声認識を行った後に、次のセグメントの再生まで音声認識を一旦中断することで、不要な音声に対して音声認識してしまうおそれを抑制できる。

また、音出力装置１５がイヤフォンやヘッドフォンの場合、音声再生部２２から出力される音声はマイクロフォン１４に入力されない。よって、音声再生部２２の再生が開始されるのと同時にユーザも聞きながら発話できるため、第１音声認識部２３も再生開始と同時に入力される音声に基づく音声認識を開始するとよい。一方、音出力装置１５がスピーカーの場合、ユーザは音声再生部２２による１つのセグメントの再生が完了後に発話するとよく、それに併せて第１音声認識部２３も１つのセグメントの再生を終了すると、第１音声認識部２３の動作を開始するとよい。これらの制御を行うことで、第１音声認識部２３は、テキストデータへの変換をしたいユーザの音声が適切に入力され、音声認識処理がされる。また、上述したように音出力装置１５がイヤフォンやヘッドフォン等の場合、変換したい人の音声の発生中にユーザが発話できるので、短時間にテキストデータに変換することができるのでよい。

テキスト編集部２４は、受け付けた指示に従い音声認識テキストに対し修正を行う。すなわち、ユーザは、入力装置１２であるマウス等のポインティングデバイスやキーボードを操作し、読み上げ結果表示部４２に表示されたテキスト中の修正したい箇所にカーソルを持って行き、削除や挿入などの操作を行う。また、本実施形態では、このように読み上げ結果表示部４２に表示されたテキストに対してテキスト編集部２４で編集が行われた場合でも、第１音声認識部２３の認識結果である音声認識テキストは修正せずに記憶保持したままとする。また、編集作業は、音声認識で誤認識されたテキストを修正するものの他、間違った発話や、重複した発話を削除する作業なども行う。

そして、修正が完了した場合、ユーザは、「次へ」ボタン３６をクリックする。そこで、テキスト編集部２４は、上記の入力装置１２からの指示に伴い、音声認識テキストを編集し、「次へ」ボタン３６がクリックされたときの読み上げ結果表示部４２に表示されているテキストを、編集済みテキストとして確定し、１セグメントの音声データと紐付けて記憶装置１６その他の所定の記憶手段に書き込む。また、読み上げ結果表示部４２に表示されたテキストに対して編集が行われずに「次へ」ボタン３６がクリックされた場合、その表示された内容、すなわち、第１音声認識部２３で変換されたテキストデータがそのまま編集済みテキストとして確定され、テキスト編集部２４が、１セグメントの音声データと紐付けて記憶装置１６その他の所定の記憶手段に書き込む。

また、「次へ」ボタン３６がクリックされた場合、上記の処理と平行して音声再生部２２は、再生対象の音声データを次のセグメントに切り換える。よって、その状態で再生ボタン３１がクリックされると、音声再生部２２は、切り換えられたセグメントを再生する。以後、上記と同様の処理により切り換えられた次のセグメントについてのテキストデータへの変換を行う。

また、係るセグメントの再生は、例えば「次へ」ボタン３６がクリックされたことを検知した音声再生部２２が自動的に次のセグメントの再生を開始するとよい。このようにすると、ユーザは「次へ」ボタン３６をクリックするだけで次のセグメントの音声を聞くことができる。

一方、ユーザは、途中で発話が失敗してしまった場合など、テキスト編集に時間がかかりそうな場合に、「やり直す」ボタン３７をクリックする。この「やり直す」ボタン３７がクリックされた場合、読み上げ結果表示部４２に表示されているセグメントの認識されたテキスト部分を消去し、記憶手段からも削除する。係る消去・削除処理は、例えばテキスト編集部２４が行うが、他の処理部或いは別の処理部が行ってもよい。そして音声再生部２２は、現在処理対象となっている同じセグメントの再生を行う。また、この「やり直す」ボタン３７は、再生途中と、１つのセグメントの再生が終了した後のいずれの場合もクリック可能で、いずれの場合もクリックされると上記と同様の処理を行う。

出力処理部２５は、テキスト編集部２４が書き込んだ編集済みテキストを読み出し、確定済みデータ表示部４３に表示する。このとき、それまでに確定した各セグメントに対するテキストデータをつなげて表示する。処理対象の音声データに対する全てのセグメントに対する処理が完了すると、全ての編集済みテキストからなる最終出力テキストが作成される。

さらに出力処理部２５は、ユーザーインタラクションによって、セグメントの長さや読み上げスピードを自動調節する機能を備える。すなわち、例えば、書き起こし中に起こりうるユーザーインタラクションとしては、「やり直す」ボタン３７をクリックし、同じセグメントを最初から再生させ、発話を行う場合や、再生中に再生ボタン３１を押して、音声を一時停止する場合などがある。これらの操作は、いずれも、ユーザが聞き取れなかったり、覚えきれなかったり、その再生スピードに合わせて発話することが出来なかったりするなど、セグメントの再生時間や再生速度などの再生条件が適切でないことが考えられる。

そこで、本実施形態では、これらのボタンの操作に応じて出力処理部２５が再生条件を自動的に調整する機能を備える。具体的には、「やり直す」ボタン３７がクリックされた場合、出力処理部２５は、再生速度を落とすように調整する。落とす速度は、例えば標準値に対し、０．９倍、０．８倍、０．７倍…のように速度を複数設定しておき、一段階ずつ下げるとよい。このような制御を行うのは、ユーザはその発話をそのスピードで噛んだり詰まったりせずに話すことが難しいと考えられるため、ゆっくり再生するようにした。

また、再生中に再生ボタン３１がクリックされた場合、出力処理部２５は、セグメントの時間、すなわち、読み上げ長さを短くするように調整する。短くする時間は、例えば調整する秒数の幅（例えば１秒、２秒など）を予め決めておき、１段階ずつ短くしていくようにしてもよい。また、再生ボタン３１がクリックされた際の開始からの経過時間に基づき決定するとよい。例えば、当初は、セグメントの時間が１０秒であったところ、５秒経過時点で停止された場合、５秒目にしたり、５秒に対して所定のマージンを取ったり、停止時間と現在の時間の中間にするなど、各種の設定とするとよい。このような制御を行うのは、ユーザは音声再生部２２で再生されて聞いた音声を覚えつつ話し続けるというマルチタスクのキャパシティが逼迫していると考えられるからである。

また、上述した調整は、各ボタンがクリックされる都度、１回目から行うようにしてもよいが、所定の回数など繰り返し行われ場合に調整を行うようにしてもよい。例えば、再生された音声が、たまたま聞き慣れない用語が含まれていたり、話し方が悪かったりする場合など、セグメントの再生条件に起因しないでボタンがクリックされてしまうことがある。係る場合、直ぐに調整すると、かえって迅速に書き起こし作業が行えない恐れがある。そこで、例えば連続して所定回数以上同じボタンが押された場合や、所定回数のセグメントの処理以内で一定以上ボタンが押された場合に調整を行うようにするとよい。

さらにこのように自動的に行うのではなく、例えば、マニュアル操作で調整する機能を備えるとよい。本実施形態では、再生速度情報表示部３４と読み上げ長さ表示部３５のそれぞれに、横に延びるスライダーバーと、そのスライダーバーに沿って移動するスライダーを設け、さらにそれぞれの右端に現在の設定値（１．３倍，５．０秒）を表示するレイアウトを採っている。そこで、ユーザは入力装置１２を操作して、スライダーを左右に移動することで、ユーザの好みの設定値に変更可能としている。これにより、例えば初期値よりも再生速度を速くしたり、セグメントの時間を長くしたりすることができ、よりスムーズかつ迅速にテキストデータへの変換作業が行える。また、このようにマニュアル操作に基づく調整機能を備えることで、上述した自動調整により意図しない条件変更が行われた場合に、元の条件に戻すことができる。

さらに、自動的に調整する機能は、条件を緩くする方向、すなわち、速度を遅くしたり、時間を短くしたりする方向の調整を行い、逆に厳しくする方向の調整は行わないようにするとよい。このようにすると、例えば、「次へ」ボタン３６や「やり直す」ボタン３７をクリックすることなく、順調にテキストデータへの変換が行われている場合、セグメントの再生条件がユーザにあっているため、再生速度を速くしたり、セグメントの時間を長くしたりするなどの調整が自動的に行われると、つまずく恐れがある。そこで、厳しくする方向の調整は、ユーザに任せるとよい。

上述したように、本実施形態では、音声認識するＡＩは例えば既存のものを利用しつつ、そのためのマンマシンインタフェースの部分で、記憶した音声データを先頭から１セグメントずつ再生する機能と、指示に基づき再生したセグメントを再度再生する機能と、再生速度を調整する機能と、セグメントの時間を調整する機能を備えることで、ユーザは、自分にあった再生条件で音声を聞きながら発話して、テキストデータへの変換をスムーズに行える。

さらに本実施形態ではフィードバック計算部２６を備えることで、第１音声認識部２３が認識しやすい発話を促すことがでる。すなわち、このフィードバック計算部２６は、編集して確定した編集済みテキストと、リアルタイムで第１音声認識部２３が出力したテキストを比較し、ユーザが苦手な発音を特定する。例えば、所定の記憶手段に記録した編集前の認識結果である音声認識テキストが「最近いった心では、富士山がよかった」で、編集後の編集済みテキストが「最近いったところでは、富士山がよかった」の場合、フィードバック計算部２６は、両者を比較し「心」と、「ところ」が違っていると認識し、さらに「心」の読みが「こころ」であることから、「こ」と「と」の発音が間違えやすいと認識する。そして、その認識結果を表示装置１３に表示する。

例えば図３の操作・結果画面の所定位置、例えば下方に配置したミス表示部４４に表示するとよい。また、この表示は、図示したように、間違った内容を記載するとよい。さらに、編集前と編集後のテキストを表示し、間違っているところが目立つ態様で表示するとともに、間違いやすいと認識した理由を合わせて表記するとよい（例えば、［「こ」と「と」の発音が間違えやすいので注意しましょう］等）。目立つ態様は、色を変えたり、フォントや大きさを変えたりするとよい。このようにすると、ユーザは、間違いやすい内容を確認し、誤認識されないように気をつけて発音することができる。

また、ミス表示部４４の表示位置は、図３では確定済みデータ表示部４３の真下に配置したが、例えば確定済みデータ表示部４３等の表示結果等を示す一群の表示部とは離れた位置、例えば左下などに配置するとよい。他の表示部とずらすことで、表示する間違い箇所が多くなっても、確定済みデータ表示部４３等と干渉せず複数のミスの情報を表示することができる。また、例えばユーザが読み上げ結果表示部４２に表示される発話した内容の認識結果を見ている際に、ミス表示部４４がユーザの視界の外或いは視界の周辺にくることでユーザは今回の音声認識結果を注視することができる。

さらに、係る表示は、間違ったときのみではなくも画面上でミスの履歴として継続して表示するとよい。このようにすると、ユーザは、そのミスの履歴を見ながら発話することで、第１音声認識部２３における音声認識精度が向上し、音声認識テキストに対する編集作業が削減される。ミスの履歴は、現在処理中の音声データに対するものとするとよいが、さらには、同じユーザのミスの履歴を記憶保持し、過去の履歴も合わせて表示するとよい。

さらに本実施形態では、変換対象の音声データに対して音声認識を行い、変換したテキストデータを表示する機能を備える。第２音声認識部２７は、音声波形に対して音声認識を行いテキストデータへ変換する。第２音声認識部２７は、例えばＥＳＰｎｅｔ等のオープンソースの音声処理ツールキットを用いるとよい。

認識結果参考表示部２８は、第２音声認識部２７により事前に音声認識をした際に認識された認識結果（音声認識テキスト）を参考情報として自動認識結果表示部４１に表示する。このとき表示する認識結果は、再生されるセグメントに対応された部分の音声認識の結果であり、ここでは、現在再生中のセグメントに対応するものを中央に示し、その上下に１つ前と次のセグメントに対応する認識結果を示す。このように参考情報として示すことで、ユーザは、どのような文章を言っているかのおおよその予測が立ち、聞き取り精度が上がる。

さらに、テキスト編集部２４で編集された修正後の文字列と、その文字列に対応する発話された音声データをペアにした教師データを作成する機能を備え、その教師データを第１音声認識部２３に与え、ＡＩに音声認識モデルの学習をさせるように構成するとよい。このようにすると、第１音声認識部２３の音声認識モデルがユーザの発声のクセなどにあうように進化し、認識精度が向上する。そして、音声データとテキストデータとを紐付けた音声情報を作成するに際し、同じユーザが音声データを聞きながら発話するようにしていくと、そのユーザごとにモデルが進化して精度が半永久的に上がり効率化がより向上するのでよい。またこのシステムを複数のユーザが利用する場合、ユーザ管理をし、ユーザ毎に第１音声認識部２３の音声認識モデルを構築するように構成するとよい。

ＡＩに与える教師データは、例えば上記の例では「ところ」のように修正した部分を抽出し、それに対応する音声データのペアとしてもよいが、セグメント単位とするとよい。セグメント単位とすると、セグメントの音声データと編集済みテキストをペアにすることで教師データが簡単に作成できるとともに、誤認識された単語の発音は、前後の文の関係でも変わることがあるためである。また、修正した部分を抽出する場合、少なくとも変化があった文字列を含む単語単位で抽出するとよい。また、上述した教師データは、修正後の正解データではなく、それに変えて或いはそれに加えて誤認識された認識結果のテキストデータと音声データをペアにし、不正解の教師データとして与え、そのような誤認識がされないように修正するようにしてもよい。

上述した実施形態では、セグメント毎に音声データとテキストデータとを紐付けた音声情報を記録する。そして、係る音声情報を特許文献１に開示されたリアルタイム音声変換を行う音声変換装置に適用する場合、変換後の音声データを作成するためには、色々な言葉を発している際の音声データとテキストデータとを紐付けしたものが、一定時間以上分あると好ましいが、音声データやテキストデータはそれぞれ１つのファイルに纏まっている必要は無く、例えばセグメント単位のものでもよい。よって、前後のセグメントの音声データやテキストデータを結合することなく、セグメント単位での音声データとテキストデータの組を多数備え、総時間で一定の基準を超えるとよい。

また、本発明は、このようにリアルタイムでの音声変換を行うための音声データとテキストデータをペアにした音声情報の収集のために利用するものに限ることはなく、例えば音声認識や、テキストデータに基づいて音声出力を行う音声合成等を行うための音声モデルの作成や、例えばいわゆるテープ起こしのように、会議での発言や各種の原稿等を記録した音声データをテキスト化するのにも適用することができる。

以上、本発明の様々な側面を実施形態並びに変形例を用いて説明してきたが、これらの実施形態や説明は、本発明の範囲を制限する目的でなされたものではなく、本発明の理解に資するために提供されたものであることを付言しておく。本発明の範囲は、明細書に明示的に説明された構成や製法に限定されるものではなく、本明細書に開示される本発明の様々な側面の組み合わせをも、その範囲に含むものである。本発明のうち、特許を受けようとする構成を、添付の特許請求の範囲に特定したが、現在の処は特許請求の範囲に特定されていない構成であっても、本明細書に開示される構成を、将来的に特許請求する可能性があることを、念のために申し述べる。

１０：システム
１１：処理装置
１２：入力装置
１３：表示装置
１４：マイクロフォン
１５：音出力装置
１６：記憶装置
２１：音声区間検出部
２２：音声再生部
２３：第１音声認識部
２４：テキスト編集部
２５：出力処理部
２６：フィードバック計算部
２７：第２音声認識部
２８：認識結果参考表示部
３１：再生ボタン
３２：再生時間表示部
３３：音量調整ボタン
３４：再生速度情報表示部
３５：読み上げ長さ表示部
３６：「次へ」ボタン
３７：「やり直す」ボタン
４１：自動認識結果表示部
４２：読み上げ結果表示部
４３：確定済みデータ表示部
４４：ミス表示部

Claims

取得した音声データを、複数のセグメントに分割し、その複数のセグメントを１つずつ再生する機能と、
再生した前記セグメントの音声を聞いたユーザが同じ内容を発話した音声に基づき音声認識して得られた音声認識テキストに基づいて前記音声データのテキストデータを作成する機能を備え、
前記複数のセグメントを１つずつ再生する手段は、現在再生対象のセグメントの音声データを最後まで再生すると再生を停止する機能と、再生中に受け付けた一時停止指示に基づき再生を一時停止する機能を備え、
前記再生中に前記一時停止をした場合に、前記セグメントの音声の再生速度を遅くする処理と、前記セグメントを構成する時間を短くする処理の少なくとも一方を行う調整機能を備えるシステム。
取得した音声データを、複数のセグメントに分割し、その複数のセグメントを１つずつ再生する機能と、
再生した前記セグメントの音声を聞いたユーザが同じ内容を発話した音声に基づき音声認識して得られた音声認識テキストに基づいて前記音声データのテキストデータを作成する機能を備え、
前記処理中のセグメントに対する音声認識結果を消去し、そのセグメントについての音声の再生を行う機能を備え、
その機能が実行された場合、前記セグメントの音声の再生速度を遅くする処理と、前記セグメントを構成する時間を短くする処理の少なくとも一方を行う調整機能を備えるシステム。
前記複数のセグメントを１つずつ再生する手段は、現在再生対象のセグメントの音声データを最後まで再生すると再生を停止する機能と、再生中に受け付けた一時停止指示に基づき再生を一時停止する機能を備え、
前記再生中に前記一時停止をした場合に、前記セグメントの音声の再生速度を遅くする処理と、前記セグメントを構成する時間を短くする処理の少なくとも一方を行う調整機能を備える請求項２に記載のシステム。
請求項１から３のいずれか１項に記載のシステムの機能をコンピュータに実現させるためのプログラム。