JP7288530B1 - システムおよびプログラム - Google Patents

システムおよびプログラム Download PDF

Info

Publication number
JP7288530B1
JP7288530B1 JP2022036531A JP2022036531A JP7288530B1 JP 7288530 B1 JP7288530 B1 JP 7288530B1 JP 2022036531 A JP2022036531 A JP 2022036531A JP 2022036531 A JP2022036531 A JP 2022036531A JP 7288530 B1 JP7288530 B1 JP 7288530B1
Authority
JP
Japan
Prior art keywords
voice
segment
data
text
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022036531A
Other languages
English (en)
Other versions
JP2023131648A (ja
Inventor
陸 荒川
大夢 矢倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2022036531A priority Critical patent/JP7288530B1/ja
Application granted granted Critical
Publication of JP7288530B1 publication Critical patent/JP7288530B1/ja
Publication of JP2023131648A publication Critical patent/JP2023131648A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】音声認識されることを意識していない音声データからテキストデータへの変換を容易に行うシステムを提供すること【解決手段】 取得した音声データを、音声区間検出部21で複数のセグメントに分割し、音声再生部22がその複数のセグメントを1つずつ再生する。ユーザは、再生された音声を聞いて同じ内容を発話するので、第1音声認識部23がそのユーザの発話を音声認識して音声認識テキストを得る。必要に応じてテキスト編集部24にてテキストを修正し、確定した編集済みテキストに基づいて出力処理部25が音声データのテキストデータを作成する。また出力処理部は、ユーザの操作に基づき、セグメントの再生条件を自動的に調整する。【選択図】 図2

Description

本発明は、音声データをテキスト化するためのシステムおよびプログラムに関するものである。
音声をテキストデータに変換する書き起こし・テープ起こしの重要性は、取得したテキストデータを様々な場面で活用できることから、広く認識されている。また音声データとそれに紐づけられたテキストデータは、音声合成、音声認識、音声変換など、様々な音声処理モデルの開発にも活用できる。
例えば、音声変換においては、1時間分ほどの特定の人の音声データとテキストデータからその人の音声モデルを作成することができ、それを使うことで声をその人の声に変換することが可能である。このように対象者の音声を変換し、異なる人物が話しているような合成音声を生成し、出力する装置として、例えば特許文献1に開示されるニューラルネットワークを用いたリアルタイム音声変換を行う音声変換装置がある。この音声変換装置は、対象者の音声から複数の部分音声の信号を取得し、取得した信号から所定の特徴量を抽出し、抽出した特徴量を、ニューラルネットワークを用いて異なる人物の音声の声色の変換特徴量に変換し、その変換した変換特徴量に基づいて合成音声を生成し、スピーカーから出力するようにしている。
この装置を用いて自分の声を自在に他者の声に変換することで、自身のメンタルや行動にポジティブな影響を与えること等への応用が期待される。例えば、高齢者が若者のはつらつとした張りのある声にリアルタイムで変換して発声すると、元気になり、活動量が増えることがある。
特開2021-33129号公報
上述したように音声変換においては、1時間分ほどの特定の人の音声データとテキストデータからその人の音声モデルを作成する必要があるが、以下に説明するように音声モデルの作成作業、特にテキストデータの作成作業は、煩雑である。
すなわち、音声データ自体は、例えば、インターネット、テレビ、ラジオ等から流れてくる音声や、過去に録音した音声などを流用することで比較的簡単に入手できる。一方、そのように入手した音声データをテキストデータに変換する作業は非常に手間が掛かる。すなわち、音声データを再生しつつ行う書き起こし・テープ起こし作業は、録音時間の10倍近い時間が掛かり、煩雑である。
また、上記の入手した音声データを音声認識してテキストデータに変換しようとしても、一般に利用できる音声認識システムでは、認識精度が低く、効率よくテキストデータに変換し適切な音声変換のためのデータを収集することができない。これは、入手した変換先の音声データは、元々音声認識をすることを考慮して発話されたもので無いことに加え、周囲の雑音がのったり、他の人の声が重なったりしてノイズが多く含まれることも一因と考えられる。
さらに、例えば音声変換や音声合成において、出力する音声のバリエーションを増やすためには、バリエーション毎の音声モデルが必要となる。また、音声認識においても、精度を高めるためには様々な人の音声モデルを収集することが重要な要素の一つとなる。よって、音声処理モデルの開発にあたっては、数多くの音声モデルを収集するのが好ましいが、音声モデルの作成の煩雑さは、収集する音声モデルのバリエーションを増やすと、相乗的に増え、また、結果として収集可能な音声モデルの数に制限がかかってしまうおそれがある。よって、効率よく音声モデルを作成する技術の開発が望まれている。
上述した課題はそれぞれ独立したものとして記載しているものであり、本発明は、必ずしも記載した課題の全てを解決できる必要はなく、少なくとも一つの課題が解決できればよい。またこの課題を解決するための構成についても単独で分割出願・補正等により権利取得する意思を有する。
(1)上述した課題を解決するために、本発明のシステムは、取得した音声データを、複数のセグメントに分割し、その複数のセグメントを1つずつ再生する機能と、再生した前記セグメントの音声を聞いたユーザが同じ内容を発話した音声に基づき音声認識して得られた音声認識テキストに基づいて前記音声データのテキストデータを作成する機能を備えた。
(2)前記音声認識テキストを編集する機能を備え、その編集された編集テキストと、前記音声認識テキストとを比較し、相違箇所から誤認識されやすい発音を求め、その求めた結果を表示する機能を備えるとよい。
(3)前記結果は、処理中のセグメントの音声データに限らず履歴を表示するとよい。
(4)前記複数のセグメントを1つずつ再生する手段は、現在再生対象のセグメントの音声データを最後まで再生すると再生を停止する機能と、再生中に受け付けた一時停止指示に基づき再生を一時停止する機能を備え、前記再生中に前記一時停止をした場合に、前記セグメントの音声の再生速度を遅くする処理と、前記セグメントを構成する時間を短くする処理の少なくとも一方を行う調整機能を備えるとよい。
(5)前記処理中のセグメントに対する音声認識結果を消去し、そのセグメントについての音声の再生を行う機能を備え、その機能が実行された場合、前記セグメントの音声の再生速度を遅くする処理と、前記セグメントを構成する時間を短くする処理の少なくとも一方を行う調整機能を備えるとよい。
(6)前記テキストデータと、同じセグメントについての前記音声データと紐付けて記憶する機能を備えるとよい。
(7)前記音声認識テキストを編集する機能を備え、編集した箇所に基づくテキストデータと、それに対応する前記音声データとをペアにした教師データを用いて前記音声認識に用いるモデルを学習させる機能を備えるとよい。
(8)本発明に係るプログラムは、(1)から(6)のいずれか1つに記載のシステムの機能をコンピュータに実現させるためのプログラムとするとよい。
本発明は、取得した音声データに対応するテキストデータを作成するに際し、その音声データではなく、その音声データを聞いたユーザが同じ内容を発話した際の音声に基づき音声認識をするので、音声データが音声認識しやすい品質か否かにかかわらず容易にテキストデータへの変換が行える。
本発明に係るシステムの好適な一実施形態を示す図である。 処理装置の機能に着目したブロック図である。 表示画面の一例を示す図である。
以下、本発明の好適な実施形態について図面に基づき、詳細に説明する。なお、本発明は、これに限定されて解釈されるものではなく、本発明の範囲を逸脱しない限りにおいて、当業者の知識に基づいて、種々の変更、修正、改良を加え得るものである。
図1は、本発明に係る情報伝達システムの好適な一実施形態を示している。同図に示すように、本実施形態のシステム10は、処理装置11と、その処理装置11に接続される入力装置12、表示装置13、マイクロフォン14,音出力装置15並びに記憶装置16等を備える。
処理装置11は、パーソナルコンピュータその他の演算処理能力を有するコンピュータ等であり、実装されたアプリケーションプログラムを実行する機能等を備える。入力装置12は、例えばキーボード、マウス、タッチパネルなどの処理装置11に対して情報,命令を入力する装置である。音出力装置15は、音声その他の各種の音を出力する装置であり、例えばスピーカーやイヤフォン・ヘッドフォンなどがある。より好ましくは、イヤフォンやヘッドフォンのように外部に元が漏れずユーザにのみ聞こえるものとするとよい。また、例えばヘッドセットのようにマイクロフォン14と音出力装置15を一体化した装置を用いるとよい。記憶装置16は、処理装置11内のハードディスクその他の内部記憶装置でもよいし、処理装置11に接続される外付けの外部記憶装置でもよい。
上記の構成のシステム10は、例えば特許文献1等に開示されるリアルタイムで音声変換を行うシステムを実現するための変換後の音声のための音声データとテキストデータとを関連付けた音声情報を収集するためのシステムであり、特に音声データを書き起こし・テキスト化する処理を支援するシステムである。
記憶装置16は、各種の方法で入手した変換後の音声のための音声データが記憶保持されている。この記憶装置16が記憶する音声データは、例えば、インターネットの動画サイトにアップされているもの、テレビやラジオ等から流れているもの、各種の機会に録音したものなど、普通に話しているときのもの等を録音して記録したものである。この音声データは、特別に用意した原稿を朗読するものではなく、また、音声認識をすることを意識してクリアーに話したものではなく、普通に発話しているときのものである。このように特段意識せずに普通に話しているときの音声データを利用することで、必要な時間分の音声データの収集が容易に行える。一方、このように音声認識を意識していない音声データの場合、音声認識の精度が低下し、その音声データをそのまま音声認識処理しても、正しいテキストデータへの変換が行いにくいが、本実施形態では以下のようにすることで正しいテキストデータ化を行えるようにしている。
そして本実施形態では、記憶装置16に記憶された音声データをテキスト化するに際し、AI(Artificial Intelligence)による音声認識を用いるが、このとき音声認識のために処理装置11に与える音声は、変換対象である記憶された音声データではなく、その音声データを聞いたユーザが同じ内容を発声したユーザの音声とするようにした。そして、係るユーザが、音声認識を考慮して発話することで、テキストデータに正しく変換され、音声データとテキストデータを関係づけた音声情報を効率よく収集できる。
すなわち、変換したい声の持ち主の人が発声している音声データを直接AIに与えて音声認識すると、テキストデータに変換した際の精度が悪くなる。すなわち、普段の会話やノイズがのっていると、最新のAIでも誤認識が見られるし、複数の人がしゃべっている会話だと、音声がかぶることがあり、正しく認識できないことがある。よって、上記の収集し記憶した音声データをそのまま処理装置11に与えて音声認識しても、適切なテキストデータに変換できない。一方、人間は、そのようなノイズや音かぶり等を自動的に聞き分けることができる。そこで、収、綺麗や言葉で話すことが出来、AIの音声認識精度を上げることできる。またユーザは、タイプ入力をするのでなく、単に聞いた文章をそのまま発話するだけでよいので負担は軽い。
さらに本実施形態のシステム10は、以下に説明するように上記の処理をよりスムーズに行うための様々な機能を有するユーザインタフェースを備えている。図2は、機能面に着目した処理装置11のブロック構成図である。同図に示すように、音声区間検出部21、音声再生部22,第1音声認識部23、テキスト編集部24、出力処理部25及びフィードバック計算部26等を備える。さらに本実施形態では、処理装置11は、変換対象の音声データに対する音声認識処理を行う機能を実現するための第2音声認識部27及び認識結果参考表示部28等も備える。
音声区間検出部21は、記憶装置16に記憶保持されている処理対象の音声データを読み出し、その音声波形を解析し、有声区間(話している箇所)と無声区間(話していない箇所)を、細かい窓幅単位で区別する。次いで音声区間検出部21は、有声区間ごとの合併などを行い、再生単位のセグメントを決める。
例えば1ファイル分の音声データを連続して再生し続けると、それを聞いて同じ内容を話すことは難しい。そこで一定時間毎に区切ったセグメントを作成し、セグメント単位で再生を行うようにした。そして、効率よくテキストに変換するように、上述したように無声区間を省き、有声区間を時系列でつなげるとともに、つなげた後の音声データを先頭から設定された時間間隔で区切り、上述したように個々のセグメントを作成する。さらに音声区間検出部21は、このようにして作成した有声区間をセグメントに区切った音声区間情報を、記憶装置16或いは処理装置11内のキャッシュメモリ等の記憶手段に格納する。
また、セグメントの記録時間の単位は、例えば数秒~20秒程度とするとよい。この時間は、例えば初期値(例えば10秒)を設定しておき、図示省略するモード設定画面から時間を変更可能に構成するとよい。このようにすると、音声区間検出部21は、モードの変更が行われない状態では、初期値に従ってセグメントを作成する。ユーザは、モード設定を行い、セグメントの時間を、聞き取った後或いは聞きながら話せる時間に変更することで、ストレスを可及的に抑制しスムーズで適切なテキストデータへの変換が可能となる。また、後述するようにこの時間を自動的に調整する機能を備えるとよい。
また、音声区間情報は、音声データをセグメント単位に分けて別々のファイルとして記録するようにしてもよいが、例えば有声区間をつなげた音声データを一つのファイルとして記録し、その一つのファイルの音声データに対し、セグメントの区切りがわかるようにフラグ・ポインタ等を付すなどしてセグメント単位で再生するための情報を関連付けて記録するとよい。このように1つのファイルにすることで、例えば、上述したようにセグメントの時間単位を変更した場合、セグメントの区切りを示す情報を変えるだけでよいので好ましい。
一方、処理装置11は、本システムの起動に伴い、表示装置13に図3に示すようなユーザインタフェースの操作・結果画面を表示する。係る画面の上方には、左から順に再生ボタン31、再生時間表示部32,音量調整ボタン33等が配置され、その下側には再生速度情報表示部34、読み上げ長さ表示部35が配置され、それらの右側に、「次へ」ボタン36と、「やり直す」ボタン37が配置されるレイアウトをとる。さらに上記の各種の指示を与える領域の下方には、上から順に自動認識結果表示部41、読み上げ結果表示部42、確定済みデータ表示部43が配置されるレイアウトをとる。ユーザインタフェースを構成する各処理部は、以下に説明するようにこの操作・結果画面を用いた指示を受けて所定処理を行い、実行結果を表示する処理を行う。
音声再生部22は、音声区間検出部21が作成した音声区間情報に基づき、1つのセグメント単位での再生を制御する。入力装置12を構成するマウス等の操作に基づき再生ボタン31がクリックされたのを検知すると、音声再生部22は、現在の処理対象の1つのセグメントの音声を再生する。そして、音声再生部22は、現在再生中のセグメントを最後まで再生すると、再生を停止し、待機する。
さらに音声再生部22は、1つのセグメントの音声を最後まで再生し、待機中に再生ボタン31がクリックされたのを検知すると、今再生したセグメントの音声データを最初から再度1回再生する。このようにすることで、ユーザは聞き漏らしたり、確信が持てなかったりする内容を確認することができる。
また、再生中に再生ボタン31がクリックされると、音声再生部22は再生を中断する。そして中断している状態で再生ボタン31がクリックされると、音声再生部22は一時停止した位置から再生を再開する。この再生した音声は、音出力装置15から出力され、ユーザが聞くことができる。
なお再生ボタン31は、状態により表示するアイコンを変化させるとよく、例えば、再生をしていない状態(一時停止中を含む)では図示するように横△のマークを表示し、再生中は別の姿態のアイコン(例えば、縦棒を横に2本並べたもの等)とするとよい。
ユーザは、音出力装置15から出力される音声を聞き取り、同じ内容の文章を発話する。このユーザが発生した音声は、マイクロフォン14を介して処理装置11に入力され第1音声認識部23に与えられる。第1音声認識部23は、リアルタイムに音声認識を行いテキストデータへ変換し、その認識結果(音声認識テキスト)を読み上げ結果表示部42に表示する。第1音声認識部23は、与えられた音声をリアルタイムにテキストデータに変換するもので、AIを用いた音声認識機能により実現でき、係る機能を処理装置11内に実装してもよいし、各種の音声認識を行うクラウドサービス(例えばGoogle Speech API等)を利用してもよい。クラウドサービスを利用する場合、第1音声認識部23は、マイクロフォン14を介して取得した音声データをクラウドに送信し、認識結果(テキストデータ)を受信し、受信したテキストデータ(音声認識テキスト)を読み上げ結果表示部42に表示する。また、第1音声認識部23は、テキストデータへ変換した音声認識テキストを、所定の記憶手段に記憶する。
また、第1音声認識部23は、マイクロフォン14から入力される音声を常時テキストデータに変換するようにしてもよいが、好ましくは音声再生部22の動作に関連して動作するとよい。例えば、音声再生部22における1つのセグメントの再生が終了し、音声認識処理も終了すると、一旦音声の受け付けを終了する。そして、次に音声再生部22が再生を開始すると、第1音声認識部23はマイクロフォン14から入力される音声を受け付け、音声認識処理によるテキストデータへの変換を行うとよい。このようにすることで、一旦音声認識を行った後に、次のセグメントの再生まで音声認識を一旦中断することで、不要な音声に対して音声認識してしまうおそれを抑制できる。
また、音出力装置15がイヤフォンやヘッドフォンの場合、音声再生部22から出力される音声はマイクロフォン14に入力されない。よって、音声再生部22の再生が開始されるのと同時にユーザも聞きながら発話できるため、第1音声認識部23も再生開始と同時に入力される音声に基づく音声認識を開始するとよい。一方、音出力装置15がスピーカーの場合、ユーザは音声再生部22による1つのセグメントの再生が完了後に発話するとよく、それに併せて第1音声認識部23も1つのセグメントの再生を終了すると、第1音声認識部23の動作を開始するとよい。これらの制御を行うことで、第1音声認識部23は、テキストデータへの変換をしたいユーザの音声が適切に入力され、音声認識処理がされる。また、上述したように音出力装置15がイヤフォンやヘッドフォン等の場合、変換したい人の音声の発生中にユーザが発話できるので、短時間にテキストデータに変換することができるのでよい。
テキスト編集部24は、受け付けた指示に従い音声認識テキストに対し修正を行う。すなわち、ユーザは、入力装置12であるマウス等のポインティングデバイスやキーボードを操作し、読み上げ結果表示部42に表示されたテキスト中の修正したい箇所にカーソルを持って行き、削除や挿入などの操作を行う。また、本実施形態では、このように読み上げ結果表示部42に表示されたテキストに対してテキスト編集部24で編集が行われた場合でも、第1音声認識部23の認識結果である音声認識テキストは修正せずに記憶保持したままとする。また、編集作業は、音声認識で誤認識されたテキストを修正するものの他、間違った発話や、重複した発話を削除する作業なども行う。
そして、修正が完了した場合、ユーザは、「次へ」ボタン36をクリックする。そこで、テキスト編集部24は、上記の入力装置12からの指示に伴い、音声認識テキストを編集し、「次へ」ボタン36がクリックされたときの読み上げ結果表示部42に表示されているテキストを、編集済みテキストとして確定し、1セグメントの音声データと紐付けて記憶装置16その他の所定の記憶手段に書き込む。また、読み上げ結果表示部42に表示されたテキストに対して編集が行われずに「次へ」ボタン36がクリックされた場合、その表示された内容、すなわち、第1音声認識部23で変換されたテキストデータがそのまま編集済みテキストとして確定され、テキスト編集部24が、1セグメントの音声データと紐付けて記憶装置16その他の所定の記憶手段に書き込む。
また、「次へ」ボタン36がクリックされた場合、上記の処理と平行して音声再生部22は、再生対象の音声データを次のセグメントに切り換える。よって、その状態で再生ボタン31がクリックされると、音声再生部22は、切り換えられたセグメントを再生する。以後、上記と同様の処理により切り換えられた次のセグメントについてのテキストデータへの変換を行う。
また、係るセグメントの再生は、例えば「次へ」ボタン36がクリックされたことを検知した音声再生部22が自動的に次のセグメントの再生を開始するとよい。このようにすると、ユーザは「次へ」ボタン36をクリックするだけで次のセグメントの音声を聞くことができる。
一方、ユーザは、途中で発話が失敗してしまった場合など、テキスト編集に時間がかかりそうな場合に、「やり直す」ボタン37をクリックする。この「やり直す」ボタン37がクリックされた場合、読み上げ結果表示部42に表示されているセグメントの認識されたテキスト部分を消去し、記憶手段からも削除する。係る消去・削除処理は、例えばテキスト編集部24が行うが、他の処理部或いは別の処理部が行ってもよい。そして音声再生部22は、現在処理対象となっている同じセグメントの再生を行う。また、この「やり直す」ボタン37は、再生途中と、1つのセグメントの再生が終了した後のいずれの場合もクリック可能で、いずれの場合もクリックされると上記と同様の処理を行う。
出力処理部25は、テキスト編集部24が書き込んだ編集済みテキストを読み出し、確定済みデータ表示部43に表示する。このとき、それまでに確定した各セグメントに対するテキストデータをつなげて表示する。処理対象の音声データに対する全てのセグメントに対する処理が完了すると、全ての編集済みテキストからなる最終出力テキストが作成される。
さらに出力処理部25は、ユーザーインタラクションによって、セグメントの長さや読み上げスピードを自動調節する機能を備える。すなわち、例えば、書き起こし中に起こりうるユーザーインタラクションとしては、「やり直す」ボタン37をクリックし、同じセグメントを最初から再生させ、発話を行う場合や、再生中に再生ボタン31を押して、音声を一時停止する場合などがある。これらの操作は、いずれも、ユーザが聞き取れなかったり、覚えきれなかったり、その再生スピードに合わせて発話することが出来なかったりするなど、セグメントの再生時間や再生速度などの再生条件が適切でないことが考えられる。
そこで、本実施形態では、これらのボタンの操作に応じて出力処理部25が再生条件を自動的に調整する機能を備える。具体的には、「やり直す」ボタン37がクリックされた場合、出力処理部25は、再生速度を落とすように調整する。落とす速度は、例えば標準値に対し、0.9倍、0.8倍、0.7倍…のように速度を複数設定しておき、一段階ずつ下げるとよい。このような制御を行うのは、ユーザはその発話をそのスピードで噛んだり詰まったりせずに話すことが難しいと考えられるため、ゆっくり再生するようにした。
また、再生中に再生ボタン31がクリックされた場合、出力処理部25は、セグメントの時間、すなわち、読み上げ長さを短くするように調整する。短くする時間は、例えば調整する秒数の幅(例えば1秒、2秒など)を予め決めておき、1段階ずつ短くしていくようにしてもよい。また、再生ボタン31がクリックされた際の開始からの経過時間に基づき決定するとよい。例えば、当初は、セグメントの時間が10秒であったところ、5秒経過時点で停止された場合、5秒目にしたり、5秒に対して所定のマージンを取ったり、停止時間と現在の時間の中間にするなど、各種の設定とするとよい。このような制御を行うのは、ユーザは音声再生部22で再生されて聞いた音声を覚えつつ話し続けるというマルチタスクのキャパシティが逼迫していると考えられるからである。
また、上述した調整は、各ボタンがクリックされる都度、1回目から行うようにしてもよいが、所定の回数など繰り返し行われ場合に調整を行うようにしてもよい。例えば、再生された音声が、たまたま聞き慣れない用語が含まれていたり、話し方が悪かったりする場合など、セグメントの再生条件に起因しないでボタンがクリックされてしまうことがある。係る場合、直ぐに調整すると、かえって迅速に書き起こし作業が行えない恐れがある。そこで、例えば連続して所定回数以上同じボタンが押された場合や、所定回数のセグメントの処理以内で一定以上ボタンが押された場合に調整を行うようにするとよい。
さらにこのように自動的に行うのではなく、例えば、マニュアル操作で調整する機能を備えるとよい。本実施形態では、再生速度情報表示部34と読み上げ長さ表示部35のそれぞれに、横に延びるスライダーバーと、そのスライダーバーに沿って移動するスライダーを設け、さらにそれぞれの右端に現在の設定値(1.3倍,5.0秒)を表示するレイアウトを採っている。そこで、ユーザは入力装置12を操作して、スライダーを左右に移動することで、ユーザの好みの設定値に変更可能としている。これにより、例えば初期値よりも再生速度を速くしたり、セグメントの時間を長くしたりすることができ、よりスムーズかつ迅速にテキストデータへの変換作業が行える。また、このようにマニュアル操作に基づく調整機能を備えることで、上述した自動調整により意図しない条件変更が行われた場合に、元の条件に戻すことができる。
さらに、自動的に調整する機能は、条件を緩くする方向、すなわち、速度を遅くしたり、時間を短くしたりする方向の調整を行い、逆に厳しくする方向の調整は行わないようにするとよい。このようにすると、例えば、「次へ」ボタン36や「やり直す」ボタン37をクリックすることなく、順調にテキストデータへの変換が行われている場合、セグメントの再生条件がユーザにあっているため、再生速度を速くしたり、セグメントの時間を長くしたりするなどの調整が自動的に行われると、つまずく恐れがある。そこで、厳しくする方向の調整は、ユーザに任せるとよい。
上述したように、本実施形態では、音声認識するAIは例えば既存のものを利用しつつ、そのためのマンマシンインタフェースの部分で、記憶した音声データを先頭から1セグメントずつ再生する機能と、指示に基づき再生したセグメントを再度再生する機能と、再生速度を調整する機能と、セグメントの時間を調整する機能を備えることで、ユーザは、自分にあった再生条件で音声を聞きながら発話して、テキストデータへの変換をスムーズに行える。
さらに本実施形態ではフィードバック計算部26を備えることで、第1音声認識部23が認識しやすい発話を促すことがでる。すなわち、このフィードバック計算部26は、編集して確定した編集済みテキストと、リアルタイムで第1音声認識部23が出力したテキストを比較し、ユーザが苦手な発音を特定する。例えば、所定の記憶手段に記録した編集前の認識結果である音声認識テキストが「最近いった心では、富士山がよかった」で、編集後の編集済みテキストが「最近いったところでは、富士山がよかった」の場合、フィードバック計算部26は、両者を比較し「心」と、「ところ」が違っていると認識し、さらに「心」の読みが「こころ」であることから、「こ」と「と」の発音が間違えやすいと認識する。そして、その認識結果を表示装置13に表示する。
例えば図3の操作・結果画面の所定位置、例えば下方に配置したミス表示部44に表示するとよい。また、この表示は、図示したように、間違った内容を記載するとよい。さらに、編集前と編集後のテキストを表示し、間違っているところが目立つ態様で表示するとともに、間違いやすいと認識した理由を合わせて表記するとよい(例えば、[「こ」と「と」の発音が間違えやすいので注意しましょう]等)。目立つ態様は、色を変えたり、フォントや大きさを変えたりするとよい。このようにすると、ユーザは、間違いやすい内容を確認し、誤認識されないように気をつけて発音することができる。
また、ミス表示部44の表示位置は、図3では確定済みデータ表示部43の真下に配置したが、例えば確定済みデータ表示部43等の表示結果等を示す一群の表示部とは離れた位置、例えば左下などに配置するとよい。他の表示部とずらすことで、表示する間違い箇所が多くなっても、確定済みデータ表示部43等と干渉せず複数のミスの情報を表示することができる。また、例えばユーザが読み上げ結果表示部42に表示される発話した内容の認識結果を見ている際に、ミス表示部44がユーザの視界の外或いは視界の周辺にくることでユーザは今回の音声認識結果を注視することができる。
さらに、係る表示は、間違ったときのみではなくも画面上でミスの履歴として継続して表示するとよい。このようにすると、ユーザは、そのミスの履歴を見ながら発話することで、第1音声認識部23における音声認識精度が向上し、音声認識テキストに対する編集作業が削減される。ミスの履歴は、現在処理中の音声データに対するものとするとよいが、さらには、同じユーザのミスの履歴を記憶保持し、過去の履歴も合わせて表示するとよい。
さらに本実施形態では、変換対象の音声データに対して音声認識を行い、変換したテキストデータを表示する機能を備える。第2音声認識部27は、音声波形に対して音声認識を行いテキストデータへ変換する。第2音声認識部27は、例えばESPnet等のオープンソースの音声処理ツールキットを用いるとよい。
認識結果参考表示部28は、第2音声認識部27により事前に音声認識をした際に認識された認識結果(音声認識テキスト)を参考情報として自動認識結果表示部41に表示する。このとき表示する認識結果は、再生されるセグメントに対応された部分の音声認識の結果であり、ここでは、現在再生中のセグメントに対応するものを中央に示し、その上下に1つ前と次のセグメントに対応する認識結果を示す。このように参考情報として示すことで、ユーザは、どのような文章を言っているかのおおよその予測が立ち、聞き取り精度が上がる。
さらに、テキスト編集部24で編集された修正後の文字列と、その文字列に対応する発話された音声データをペアにした教師データを作成する機能を備え、その教師データを第1音声認識部23に与え、AIに音声認識モデルの学習をさせるように構成するとよい。このようにすると、第1音声認識部23の音声認識モデルがユーザの発声のクセなどにあうように進化し、認識精度が向上する。そして、音声データとテキストデータとを紐付けた音声情報を作成するに際し、同じユーザが音声データを聞きながら発話するようにしていくと、そのユーザごとにモデルが進化して精度が半永久的に上がり効率化がより向上するのでよい。またこのシステムを複数のユーザが利用する場合、ユーザ管理をし、ユーザ毎に第1音声認識部23の音声認識モデルを構築するように構成するとよい。
AIに与える教師データは、例えば上記の例では「ところ」のように修正した部分を抽出し、それに対応する音声データのペアとしてもよいが、セグメント単位とするとよい。セグメント単位とすると、セグメントの音声データと編集済みテキストをペアにすることで教師データが簡単に作成できるとともに、誤認識された単語の発音は、前後の文の関係でも変わることがあるためである。また、修正した部分を抽出する場合、少なくとも変化があった文字列を含む単語単位で抽出するとよい。また、上述した教師データは、修正後の正解データではなく、それに変えて或いはそれに加えて誤認識された認識結果のテキストデータと音声データをペアにし、不正解の教師データとして与え、そのような誤認識がされないように修正するようにしてもよい。
上述した実施形態では、セグメント毎に音声データとテキストデータとを紐付けた音声情報を記録する。そして、係る音声情報を特許文献1に開示されたリアルタイム音声変換を行う音声変換装置に適用する場合、変換後の音声データを作成するためには、色々な言葉を発している際の音声データとテキストデータとを紐付けしたものが、一定時間以上分あると好ましいが、音声データやテキストデータはそれぞれ1つのファイルに纏まっている必要は無く、例えばセグメント単位のものでもよい。よって、前後のセグメントの音声データやテキストデータを結合することなく、セグメント単位での音声データとテキストデータの組を多数備え、総時間で一定の基準を超えるとよい。
また、本発明は、このようにリアルタイムでの音声変換を行うための音声データとテキストデータをペアにした音声情報の収集のために利用するものに限ることはなく、例えば音声認識や、テキストデータに基づいて音声出力を行う音声合成等を行うための音声モデルの作成や、例えばいわゆるテープ起こしのように、会議での発言や各種の原稿等を記録した音声データをテキスト化するのにも適用することができる。
以上、本発明の様々な側面を実施形態並びに変形例を用いて説明してきたが、これらの実施形態や説明は、本発明の範囲を制限する目的でなされたものではなく、本発明の理解に資するために提供されたものであることを付言しておく。本発明の範囲は、明細書に明示的に説明された構成や製法に限定されるものではなく、本明細書に開示される本発明の様々な側面の組み合わせをも、その範囲に含むものである。本発明のうち、特許を受けようとする構成を、添付の特許請求の範囲に特定したが、現在の処は特許請求の範囲に特定されていない構成であっても、本明細書に開示される構成を、将来的に特許請求する可能性があることを、念のために申し述べる。
10 :システム
11 :処理装置
12 :入力装置
13 :表示装置
14 :マイクロフォン
15 :音出力装置
16 :記憶装置
21 :音声区間検出部
22 :音声再生部
23 :第1音声認識部
24 :テキスト編集部
25 :出力処理部
26 :フィードバック計算部
27 :第2音声認識部
28 :認識結果参考表示部
31 :再生ボタン
32 :再生時間表示部
33 :音量調整ボタン
34 :再生速度情報表示部
35 :読み上げ長さ表示部
36 :「次へ」ボタン
37 :「やり直す」ボタン
41 :自動認識結果表示部
42 :読み上げ結果表示部
43 :確定済みデータ表示部
44 :ミス表示部

Claims (4)

  1. 取得した音声データを、複数のセグメントに分割し、その複数のセグメントを1つずつ再生する機能と、
    再生した前記セグメントの音声を聞いたユーザが同じ内容を発話した音声に基づき音声認識して得られた音声認識テキストに基づいて前記音声データのテキストデータを作成する機能を備え、
    前記複数のセグメントを1つずつ再生する手段は、現在再生対象のセグメントの音声データを最後まで再生すると再生を停止する機能と、再生中に受け付けた一時停止指示に基づき再生を一時停止する機能を備え、
    前記再生中に前記一時停止をした場合に、前記セグメントの音声の再生速度を遅くする処理と、前記セグメントを構成する時間を短くする処理の少なくとも一方を行う調整機能を備えるシステム。
  2. 取得した音声データを、複数のセグメントに分割し、その複数のセグメントを1つずつ再生する機能と、
    再生した前記セグメントの音声を聞いたユーザが同じ内容を発話した音声に基づき音声認識して得られた音声認識テキストに基づいて前記音声データのテキストデータを作成する機能を備え、
    前記処理中のセグメントに対する音声認識結果を消去し、そのセグメントについての音声の再生を行う機能を備え、
    その機能が実行された場合、前記セグメントの音声の再生速度を遅くする処理と、前記セグメントを構成する時間を短くする処理の少なくとも一方を行う調整機能を備えるシステム。
  3. 前記複数のセグメントを1つずつ再生する手段は、現在再生対象のセグメントの音声データを最後まで再生すると再生を停止する機能と、再生中に受け付けた一時停止指示に基づき再生を一時停止する機能を備え、
    前記再生中に前記一時停止をした場合に、前記セグメントの音声の再生速度を遅くする処理と、前記セグメントを構成する時間を短くする処理の少なくとも一方を行う調整機能を備える請求項2に記載のシステム。
  4. 請求項1から3のいずれか1項に記載のシステムの機能をコンピュータに実現させるためのプログラム。
JP2022036531A 2022-03-09 2022-03-09 システムおよびプログラム Active JP7288530B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022036531A JP7288530B1 (ja) 2022-03-09 2022-03-09 システムおよびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022036531A JP7288530B1 (ja) 2022-03-09 2022-03-09 システムおよびプログラム

Publications (2)

Publication Number Publication Date
JP7288530B1 true JP7288530B1 (ja) 2023-06-07
JP2023131648A JP2023131648A (ja) 2023-09-22

Family

ID=86611070

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022036531A Active JP7288530B1 (ja) 2022-03-09 2022-03-09 システムおよびプログラム

Country Status (1)

Country Link
JP (1) JP7288530B1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015184564A (ja) 2014-03-25 2015-10-22 株式会社アドバンスト・メディア 音声書起支援システム、サーバ、装置、方法及びプログラム
JP2017040806A (ja) 2015-08-20 2017-02-23 株式会社フェイス 字幕制作装置および字幕制作方法
WO2021059968A1 (ja) 2019-09-27 2021-04-01 日本電気株式会社 音声認識装置、音声認識方法、およびプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6147997A (ja) * 1984-08-15 1986-03-08 シャープ株式会社 音声認識装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015184564A (ja) 2014-03-25 2015-10-22 株式会社アドバンスト・メディア 音声書起支援システム、サーバ、装置、方法及びプログラム
JP2017040806A (ja) 2015-08-20 2017-02-23 株式会社フェイス 字幕制作装置および字幕制作方法
WO2021059968A1 (ja) 2019-09-27 2021-04-01 日本電気株式会社 音声認識装置、音声認識方法、およびプログラム

Also Published As

Publication number Publication date
JP2023131648A (ja) 2023-09-22

Similar Documents

Publication Publication Date Title
US6535848B1 (en) Method and apparatus for transcribing multiple files into a single document
US6560574B2 (en) Speech recognition enrollment for non-readers and displayless devices
JP4558308B2 (ja) 音声認識システム、データ処理装置、そのデータ処理方法及びプログラム
JPWO2009025155A1 (ja) 音声再生方法、音声再生装置およびコンピュータ・プログラム
WO2007055233A1 (ja) 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム
JP2014240940A (ja) 書き起こし支援装置、方法、及びプログラム
ZA200200904B (en) System and method for improving the accuracy of a speech recognition program.
US7308407B2 (en) Method and system for generating natural sounding concatenative synthetic speech
JP6792091B1 (ja) 音声学習システム、および音声学習方法
JP2003228279A (ja) 音声認識を用いた語学学習装置、語学学習方法及びその格納媒体
JPH10326176A (ja) 音声対話制御方法
JP7288530B1 (ja) システムおよびプログラム
JP3936351B2 (ja) 音声応答サービス装置
US7092884B2 (en) Method of nonvisual enrollment for speech recognition
JP2000250401A (ja) 言語学習方法、言語学習装置およびプログラムを記録した媒体
EP2261900A1 (en) Method and apparatus for modifying the playback rate of audio-video signals
KR100383061B1 (ko) 디지털 오디오와 그의 캡션 데이터를 이용한 학습방법
JP6712511B2 (ja) 音声学習システム、音声学習方法、及び記憶媒体
JPH0816089A (ja) 発音比較学習装置
JP2010107926A (ja) 語学ヒアリング能力およびシャドーイング能力を向上させる学習教材及びその作成方法
Pražák et al. Four-phase re-speaker training system
JP5128869B2 (ja) 通訳支援システム、通訳支援プログラム、通訳支援方法
JP2016009133A (ja) 言語リハビリテーション支援装置及びその制御方法
JP2005241767A (ja) 音声認識装置
JP7432879B2 (ja) 発話トレーニングシステム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220309

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230123

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230518

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230526

R150 Certificate of patent or registration of utility model

Ref document number: 7288530

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150