JP2021009253A

JP2021009253A - プログラム、情報処理装置、及び情報処理方法

Info

Publication number: JP2021009253A
Application number: JP2019123939A
Authority: JP
Inventors: 聡三小田; Satoshi Mikota
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-07-02
Filing date: 2019-07-02
Publication date: 2021-01-28
Anticipated expiration: 2039-07-02
Also published as: US20210005204A1; JP7326931B2; US11798558B2

Abstract

【課題】文の修正操作の利便性を向上させること。【解決手段】コンピュータに、複数の単語を含む文を表示部に表示させた後で音声の入力を受け付ける処理と、前記文の音に関する情報である第１の音情報を取得する処理と、前記受け付ける処理により受け付けた音声の音に関する情報である第２の音情報を取得する処理と、前記第１の音情報のうち、前記第２の音情報と所定の類似性がある部分を特定する処理と、特定した前記部分に対応する前記文中の文字列を、前記第２の音情報に応じた文字列に基づいて修正する処理と、を実行させるプログラムを提供する。【選択図】図４Ｂ

Description

本発明は、プログラム、情報処理装置、及び情報処理方法に関する。

従来、キーボード等の入力装置が、文章等の文字列の入力に用いられる。また、音声により文章等の文字列を入力できるようにする音声認識技術も知られている（例えば、特許文献１を参照）。音声認識は、例えば、テレビ放送の字幕制作、コールセンターでの通話内容の記録、インタビューや会議の文字起こし等に利用されている。

特開２００１−０９２４９３号公報

しかしながら、キーボード等の入力装置を用いた文字列入力では、例えば、誤操作、及び誤変換等により、誤字等の誤りが発生する場合がある。また、音声認識を用いた文字列入力では、例えば、言い間違い、及び音声認識の認識誤り等により、誤字等の誤りが発生する場合がある。

従来技術では、複数の単語（語）を含む文における誤りを修正する場合、ユーザはマウスやキーボード等の操作により当該誤りがある箇所を指定して、当該誤りがある箇所を修正する必要がある。

一側面では、文の修正操作の利便性を向上させることを目的とする。

一つの案では、コンピュータに、複数の単語を含む文を表示部に表示させた後で音声の入力を受け付ける処理と、前記文の音に関する情報である第１の音情報を取得する処理と、前記受け付ける処理により受け付けた音声の音に関する情報である第２の音情報を取得する処理と、前記第１の音情報のうち、前記第２の音情報と所定の類似性がある部分を特定する処理と、特定した前記部分に対応する前記文中の文字列を、前記第２の音情報に応じた文字列に基づいて修正する処理と、を実行させるプログラムを提供する。

一側面によれば、文の修正操作の利便性を向上させることができる。

実施形態に係る情報処理装置のハードウェア構成例を示す図である。実施形態に係る情報処理装置の機能構成の一例を示す図である。実施形態に係る情報処理装置において実行される処理の一例を示すフローチャートである。実施形態に係る表示画面例について説明する図である。実施形態に係る表示画面例について説明する図である。実施形態に係る表示画面例について説明する図である。実施形態に係る所定の類似性を有する部分を特定する処理の一例を示すフローチャートである。実施形態に係る所定の類似性を有する部分を特定する処理について説明する図である。実施形態に係る音声の波形に基づいて所定の類似性を有する部分を特定する処理の一例を示すフローチャートである。実施形態に係る誤認識した音素列の履歴に基づいて所定の類似性を有する部分を特定する処理の一例を示すフローチャートである。実施形態に係る誤認識音素列統計ＤＢに記憶される誤認識された音素列の履歴の一例を示す図である。実施形態に係る誤認識文字列統計ＤＢに記憶される誤認識された文字列の履歴の一例を示す図である。実施形態に係る表示画面例について説明する図である。

以下、図面を参照して、本発明の実施形態を説明する。

＜ハードウェア構成＞
図１は、実施形態に係る情報処理装置１０のハードウェア構成例を示す図である。図１の情報処理装置１０は、それぞれバスＢで相互に接続されているドライブ装置１００、補助記憶装置１０２、メモリ装置１０３、ＣＰＵ１０４、インタフェース装置１０５、表示装置１０６、及び入力装置１０７等を有する。なお、表示装置１０６は、「表示部」の一例である。

情報処理装置１０での処理を実現するプログラムは、記録媒体１０１によって提供される。プログラムを記録した記録媒体１０１がドライブ装置１００にセットされると、プログラムが記録媒体１０１からドライブ装置１００を介して補助記憶装置１０２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１０１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１０２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

メモリ装置１０３は、プログラムの起動指示があった場合に、補助記憶装置１０２からプログラムを読み出して格納する。ＣＰＵ１０４は、メモリ装置１０３に格納されたプログラムに従って情報処理装置１０に係る機能を実現する。インタフェース装置１０５は、ネットワークに接続するためのインタフェースとして用いられる。表示装置１０６はプログラムによるＧＵＩ（Graphical User Interface）等を表示するディスプレイである。入力装置１０７は様々な操作指示の入力を受け付ける。入力装置１０７は、例えば、音声を集音するマイク、及びユーザからキーを押されることにより文字等の入力を受け付けるキーボード等を有してもよい。

なお、記録媒体１０１の一例としては、ＣＤ−ＲＯＭ、ＤＶＤディスク、又はＵＳＢメモリ等の可搬型の記録媒体が挙げられる。また、補助記憶装置１０２の一例としては、ＨＤＤ（Hard Disk Drive）又はフラッシュメモリ等が挙げられる。記録媒体１０１及び補助記憶装置１０２のいずれについても、コンピュータ読み取り可能な記録媒体に相当する。

＜機能構成＞
次に、図２を参照し、実施形態に係る情報処理装置１０の機能構成について説明する。図２は、実施形態に係る情報処理装置１０の機能構成の一例を示す図である。

情報処理装置１０は、記憶部１１を有する。記憶部１１は、誤認識した音素列の履歴を記憶する誤認識音素列統計ＤＢ（データベース）１１１、及び誤認識した文字列の履歴を記憶する誤認識文字列統計ＤＢ１１２等を有する。記憶部１１は、例えば、補助記憶装置１０２等を用いて実現されてもよい。

また、情報処理装置１０は、受付部１２、取得部１３、音声認識部１４、表示制御部１５、修正処理部１６、及び制御部１７を有する。これら各部は、情報処理装置１０にインストールされた１以上のプログラムが、情報処理装置１０のＣＰＵ１０４に実行させる処理により実現されてもよい。

受付部１２は、各種の情報の入力をユーザから受け付ける。受付部１２は、例えば、表示されている文を修正するための音声の入力を受け付ける。

取得部１３は、受付部１２等により入力された音声、及び文字列に対する音素の情報を取得（認識）する。

音声認識部１４は、修正処理部１６、及び制御部１７等の指示に従い、受付部１２により入力された音声を音声認識することにより、当該音声を文字列に変換する。

表示制御部１５は、修正処理部１６、及び制御部１７等の指示に従い、各種の情報を画面に表示させる。

修正処理部１６は、表示制御部１５により表示されている文の少なくとも一部を、受付部１２により入力された音声に基づいて修正する。制御部１７は、音声入力等による文字入力処理の全体を制御する。

＜処理＞
次に、図３から図４Ｃを参照し、実施形態に係る情報処理装置１０において実行される処理の一例について説明する。図３は、実施形態に係る情報処理装置１０において実行される処理の一例を示すフローチャートである。図４Ａから図４Ｃは、実施形態に係る表示画面例について説明する図である。なお、以下の処理は、例えば、１以上の文が発話される度に実行されてもよい。

ステップＳ１において、受付部１２は、音声の入力を受け付ける。ここで、受付部１２は、例えば、アナウンサー等により発話されたテレビ放送の番組の音声の入力を受け付けてもよい。また、受付部１２は、テレビ放送の番組の音声の内容を要約して言い直しされた音声の入力を受け付けてもよい。または、受付部１２は、例えば、会議等の音声の入力を受け付けてもよい。

続いて、音声認識部１４は、入力された音声を音声認識することにより、入力された音声を、複数の単語を含む文の文字列に変換する（ステップＳ２）。続いて、制御部１７は、音声認識された文字列を画面に表示させる（ステップＳ３）。なお、制御部１７は、音声認識された文字列の代わりに、キーボード等の入力装置を用いで入力された文章等の文字列を表示させてもよい。

続いて、修正処理部１６は、表示されている文中の文字列のうち、修正の対象とする区間（範囲）を決定する（ステップＳ４）。ここで、修正処理部１６は、例えば、音声認識された一の文を、複数の区間に分割する。

例えば、修正処理部１６は、音声認識された一の文のうち修正の対象とする区間を、文字数に基づいて決定してもよい。この場合、修正処理部１６は、例えば、音声認識された一の文の先頭の文字から所定数の文字までを先頭の区間に含め、次の文字以降の文字列を次の区間に含めてもよい。

また、修正処理部１６は、例えば、音声認識された一の文のうち修正の対象とする区間を、時間長に基づいて決定してもよい。この場合、修正処理部１６は、例えば、音声が最初に発話された時点から所定時間（例えば、４秒）が経過した時点までに発話されて音声認識された文字列を先頭の区間に含め、それより後に発話されて音声認識された文字列を次の区間に含めてもよい。

修正処理部１６は、音声認識された一の文を形態素解析し、文字数、及び時間長等に基づいて決定した区間の切れ目が一の単語の文字列中である場合、当該単語の全文字列を、先頭の区間と次の区間とのいずれか一方に含めてもよい。これにより、一の単語が複数の区間にまたがることにより、当該一の単語を修正できなくなることを防止できる。

また、修正処理部１６は、例えば、音声認識された一の文のうち修正の対象とする区間を、話者に基づいて決定してもよい。この場合、修正処理部１６は、例えば、音声認識する際に話者を識別し、第１話者の発話中に第２話者の発話に切り替わった場合、第１話者に発話されて音声認識された文字列を先頭の区間に含め、第２話者に発話されて音声認識された文字列を次の区間に含めてもよい。

また、修正処理部１６は、例えば、音声認識された一の文のうち修正の対象とする区間を、発話中の無音区間（「音声の区切り」の一例。）に基づいて決定してもよい。この場合、修正処理部１６は、例えば、発話中に所定時間（例えば、１秒）以上無音の区間がある場合、当該無音の区間以前に発話されて音声認識された文字列を先頭の区間に含め、当該無音の区間より後に発話されて音声認識された文字列を次の区間に含めてもよい。

また、修正処理部１６は、例えば、音声認識された一の文のうち修正の対象とする区間を、単語数に基づいて決定してもよい。この場合、例えば、音声認識された一の文を形態素解析して、当該一の文を各単語に分割し、当該一の文の先頭の単語から所定数の単語までを先頭の区間に含め、次の単語以降を次の区間に含めてもよい。

続いて、修正処理部１６は、表示されている文中の文字列のうち、修正の対象とする範囲を示す情報を表示させる（ステップＳ５）。図４Ａの表示画面４０１の例では、ステップＳ３の処理で表示されている文４０２には、「データに対し関谷で高速な処理を実現できるか、」という文字列４０３と、「会社が変わったときに本当にうまくワークするのかも検収します」という文字列４０４とが含まれている。修正処理部１６は、図４Ａの表示画面４０１の例では、修正の対象とする範囲である文字列４０３を囲う枠４０５を表示させている。これにより、ユーザは、誤変換、誤認識、誤字、脱字等を目視でチェックする対象の範囲を把握することができる。

続いて、受付部１２は、修正の対象とする範囲内の文字列を修正するための音声の入力を受け付ける（ステップＳ６）。続いて、修正処理部１６は、ステップＳ３の処理により表示させている文字列に対する音に関する情報である第１の音情報のうち、ステップＳ６の処理により入力された音声の音に関する情報である第２の音情報と所定の類似性を有する部分を特定する（ステップＳ７）。この処理については後述する。

続いて、音声認識部１４は、入力された音声を音声認識することにより、入力された音声を文字列に変換する（ステップＳ８）。この処理については後述する。なお、音声認識部１４は、例えば、ディープラーニング等の機械学習を用いて、入力された音声に対する文字列を推論し、推論の確からしさが高い順に所定数（例えば、１以上）の修正候補の文字列を決定してもよい。なお、本実施例において、所定数の修正候補の文字列を決定することは、入力された音声に応じた文字列に基づいて文を修正する処理の一例である。

続いて、修正処理部１６は、特定した部分を、ステップＳ８の処理により変換された文字列に基づいて修正する（ステップＳ９）。図４Ｂの表示画面４１１の例では、修正処理部１６は、文字列４０３に含まれる「関和で」という文字列が当該特定した部分（置換対象）として選択されていることを示す枠４１２を画面に表示させている。また、修正処理部１６は、各修正候補の文字列４１３１Ａから４１６１Ａにそれぞれ対応付けて、各修正候補の優先順の番号４１３１Ｂから４１６１Ｂを領域４１３に表示させている。

そして、修正処理部１６は、各修正候補のうち、ユーザから選択された修正候補の文字列で、当該特定した部分の文字列を置換する。図４Ｃの表示画面４２１の例では、修正処理部１６は、枠４１２で囲まれていた「関和で」という文字列を、ユーザから選択された「セキュアで」という文字列に置換し、次に修正の対象とする範囲である文字列４０４を囲う枠４２３を表示させている。

修正処理部１６は、ユーザからの音声に基づいて、各修正候補から置換後の文字列を選択してもよいし、キーボード等の入力に基づいて、各修正候補から置換後の文字列を選択してもよい。図４Ｂの表示画面４１１の例では、例えば、ユーザにより「いち」と発話された場合、またはテンキーにより「１」が入力された場合、修正処理部１６は、「１」の番号４１３１Ｂに対応付けられた「セキュアで」という修正候補の文字列で置換する。

また、修正処理部１６は、ユーザにより所定のコマンドの音声（例えば、「次」または「先に進め」等）と発話された場合、またはキーボードで所定のキー（例えば、エンターキー）が押下された場合、修正の対象とする範囲を、次の範囲に進めてもよい。

≪所定の類似性を有する部分を特定する処理≫
次に、図３のステップＳ７の処理の例について説明する。なお、以下で説明する各例は、組み合わせて実施することができる。この場合、修正処理部１６は、例えば、各方式に基づいて算出した類似度の値を正規化し、正規化した各類似度の値の平均値または合計値に基づいて、所定の類似性を有する部分を特定してもよい。

（音素に基づく判定）
図５、及び図６を参照し、音素に基づいて所定の類似性を有する部分を特定する処理の一例について説明する。図５は、実施形態に係る音素に基づいて所定の類似性を有する部分を特定する処理の一例を示すフローチャートである。図６は、実施形態に係る所定の類似性を有する部分を特定する処理について説明する図である。

ステップＳ１０１において、取得部１３は、修正の対象とする区間の文字列に対する音素列の情報（「第１の音情報」の一例。以下で、適宜「第１音素列」とも称する。）を取得する。ここで、取得部１３は、例えば、ステップＳ１の処理で入力された音声の信号の波形に基づいて、第１音素列を抽出してもよい。なお、音素とは、例えば、ある言語のなかで同じと見なされる音の集まりであり、日本語の音素の場合、例えば、母音の/a/, /i/, /u/, /e/, /o/、子音の/k/, /s/, /t/, /c/, /n/, /h/, /m/, /r/, /g/, /z/, /d/, /b/, /p/、半母音の/j/, /w/、及び特殊モーラの/n/, /q/, /h/の音素を用いるようにしてもよい。

なお、ステップＳ１からステップＳ３の処理により音声認識された文字列を表示させる代わりに、キーボード等により予め入力された文字列を表示させた場合、取得部１３は、当該文字列に基づいて第１音素列を取得してもよい。この場合、取得部１３は、例えば、当該文字列を形態素解析して各単語を抽出し、単語と読み仮名とが対応付けられた辞書データ、及び仮名と音素が対応付けられたデータを参照して、抽出した各単語を各音素列に変換することにより、第１音素列を取得してもよい。

続いて、取得部１３は、ステップＳ６の処理により入力された音声に対する音素列の情報（以下で、適宜「第２音素列」とも称する。）を取得する（ステップＳ１０２）。ここで、取得部１３は、例えば、ステップＳ６の処理で入力された音声の信号の波形に基づいて、第２音素列を抽出してもよい。この場合、取得部１３は、例えば、音声の信号の波形と、正解の音素列との組のデータに基づいて機械学習させた学習済みモデルを用いて、ステップＳ６の処理で入力された音声に対する第２音素列を推論してもよい。

取得部１３は、図４Ａの場合、修正の対象とする範囲内の「データに対し関谷で高速な処理を実現できるか、」という文字列４０３に対し、図６に示すように/deetanitaisisekiyadekousokunasyoriwojitugendekiruka/という音素列６１１を第１音素列として取得する。

続いて、修正処理部１６は、第１音素列に含まれる音素列のうち、第２音素列との類似度が閾値以上の部分を、所定の類似性を有する部分として特定する（ステップＳ１０３）。ここで、修正処理部１６は、まず、判定対象の各音素列の範囲を、第１音素列に含まれる先頭の音素から、第２音素列に含まれる音素の数から所定数（α）前から後までの各範囲とする。そして、修正処理部１６は、判定対象の各音素列に対して、第２音素列との類似度をそれぞれ算出する。修正処理部１６は、複数の音素列間の類似度を、例えば、複数の音素列間の編集距離（レーベンシュタイン距離）に基づいて算出してもよい。この場合、修正処理部１６は、例えば、編集距離が小さい程、類似度が高いと判定してもよい。

修正処理部１６は、例えば、１文字の挿入または削除の処理を繰り返すことにより、一の文字列を他の文字列に変形する場合に必要となる当該処理の最小回数を、編集距離の値として算出してもよい。なお、一の文字列を他の文字列に変形するために１文字を置換する必要がある場合は、１文字を削除し、１文字を挿入することとなるため、編集距離は２と算出される。

修正処理部１６は、例えば、１文字の挿入、削除、及び置換のいずれかの処理を繰り返すことにより、一の文字列を他の文字列に変形する場合に必要となる当該処理の最小回数を、編集距離の値として算出してもよい。

なお、以下では、１文字の挿入または削除の処理を繰り返すことにより、一の文字列を他の文字列に変形する場合に必要となる当該処理の最小回数を、編集距離の値として算出する場合を例として説明する。

取得部１３は、図４Ａの表示画面４０１が表示されている際に、ステップＳ６の処理で、例えば、「セキュアで」という音声が発話された場合、/sekyuade/という音素列を第２音素列として取得する。この場合、第２音素列の音素の数は８である。以下では、修正処理部１６が、上述したαを１として修正処理を行う場合の例について説明する。

修正処理部１６は、まず、音素列の先頭から、類似度を算出する処理を開始する。図６の場合、第１音素列の音素列６１１の先頭から７（＝８−１）個目までの音素列６２１、８個目までの音素列６２２、９（＝８＋１）個目までの音素列６２３は、それぞれ、/deetani/、/deetanit/、/deetanita/である。そのため、修正処理部１６は、第２音素列/sekyuade/との編集距離を、それぞれ、６、７、８と算出する。

そして、修正処理部１６は、判定対象の各音素列の範囲を１音素ずつ後ろにシフトさせながら、判定対象の各音素列に対して、第２音素列との類似度をそれぞれ算出していく。判定対象の各音素列の範囲が先頭の音素から１音素だけ後ろにシフトされた場合、第１音素列の２番目の音素から７個目までの音素列６３１、８個目までの音素列６３２、９個目までの音素列６３３は、それぞれ、/eetanit/、/eetanita/、/eetanitai/である。そのため、修正処理部１６は、第２音素列/sekyuade/との編集距離を、それぞれ、７、７、８と算出する。

そして、修正処理部１６は、例えば、判定対象の各音素列の範囲に第１音素列の最後の音素が含まれなくなった等の場合、第２音素列との類似度を算出する処理を終了してもよい。そして、修正処理部１６は、例えば、判定対象の各音素列の範囲のうち、第２音素列との類似度が最も高い範囲を、所定の類似性を有する部分として特定する。

図６の場合、第１音素列の１３番目の音素から８個目までの音素列６４１である/sekiyade/と、第２音素列/sekyuade/との編集距離は２であるため、判定対象の各音素列と第２音素列との編集距離が最も小さい。そのため、修正処理部１６は、第１音素列に含まれる/sekiyade/の音素列６４１を、第２音素列との類似度が閾値以上の部分であると判定する。

（音声の波形に基づく判定）
次に、図７を参照し、音声の波形に基づいて、所定の類似性を有する部分を特定する例について説明する。図７は、実施形態に係る音声の波形に基づいて所定の類似性を有する部分を特定する処理の一例を示すフローチャートである。

ステップＳ２０１において、取得部１３は、修正の対象とする区間の文字列に対する音声の波形の情報（「第１の音情報」の一例。以下で、適宜「第１波形」とも称する。）を取得する。ここで、取得部１３は、例えば、ステップＳ１の処理で入力された音声の信号の波形を第１波形としてもよい。

なお、ステップＳ１からステップＳ３の処理により音声認識された文字列を表示させる代わりに、キーボード等により予め入力された文字列を表示させた場合、取得部１３は、当該文字列に基づいて第１波形を取得してもよい。この場合、取得部１３は、例えば、当該文字列を形態素解析して各単語を抽出し、単語と読み仮名とが対応付けられた辞書データ、及び仮名と波形が対応付けられたデータを参照して、抽出した各単語を各波形に変換することにより、第１波形を取得してもよい。

続いて、取得部１３は、ステップＳ６の処理により入力された音声に対する波形の情報（以下で、適宜「第２波形」とも称する。）を取得する（ステップＳ２０２）。

続いて、修正処理部１６は、第１波形に含まれる波形のうち、第２波形との類似度が閾値以上の波形を、所定の類似性を有する部分として特定する（ステップＳ２０３）。ここで、修正処理部１６は、まず、音素列の先頭から、類似度を算出する処理を開始する。修正処理部１６は、例えば、判定対象の各波形の範囲を、第１波形に含まれる先頭の時点から、第２波形の時間長に応じた所定時間（例えば、第２波形の時間長の１０％の時間長）前から後までの各範囲とする。

そして、修正処理部１６は、判定対象の各波形に対して、第２波形との類似度をそれぞれ算出する。修正処理部１６は、複数の波形間の類似度を、例えば、複数の波形間の相互相関関数に基づいて算出してもよい。この場合、修正処理部１６は、例えば、相互相関関数の値が大きい程、類似度が高いと判定してもよい。

そして、修正処理部１６は、判定対象の各波形の範囲を所定の時間長（例えば、０．１秒）ずつ後ろにシフトさせながら、判定対象の各波形に対して、第２波形との類似度をそれぞれ算出していく。

（誤認識した音素列の履歴に基づく判定）
次に、図８を参照し、誤認識した音素列の履歴に基づいて、所定の類似性を有する部分を特定する例について説明する。図８は、実施形態に係る誤認識した音素列の履歴に基づいて所定の類似性を有する部分を特定する処理の一例を示すフローチャートである。

ステップＳ３０１において、取得部１３は、第１音素列を取得する。この処理は、上述した図５のステップＳ１０１の処理と同様でもよい。続いて、取得部１３は、第２音素列を取得する（ステップＳ３０２）。この処理は、上述した図５のステップＳ１０２の処理と同様でもよい。

続いて、修正処理部１６は、後述する図９に示す誤認識音素列統計ＤＢ１１１に記憶されている誤認識した音素列の履歴を参照し、第１音素列に含まれる音素列のうち、第２音素列が誤認識され易い音素列の部分を、所定の類似性を有する部分として特定する（ステップＳ３０３）。例えば、誤認識した音素列の履歴に、正解の音素列/kyua/に対応付けて、誤認識され易い音素列として/kiya/が記憶されているとする。そして、図６に示すように第１音素列が/deetanitaisisekiyadekousokunasyoriwojitugendekiruka/という音素列６１１であり、第２音素列が/sekyuade/という音素列である場合、修正処理部１６は、第２音素列に含まれる/kyua/を/kiya/で置換した音素列/sekiyade/を生成する。そして、修正処理部１６は、第１音素列のうち、生成した音素列である/sekiyade/に合致する部分を、所定の類似性を有する部分として特定する。

≪音声を文字列に変換する処理≫
次に、図９から図１１を参照し、図３のステップＳ８の、入力された音声を文字列に変換する処理の例について説明する。図９は、実施形態に係る誤認識音素列統計ＤＢ１１１に記憶される誤認識された音素列の履歴の一例を示す図である。図１０は、実施形態に係る誤認識文字列統計ＤＢ１１２に記憶される誤認識された文字列の履歴の一例を示す図である。図１１は、実施形態に係る表示画面例について説明する図である。なお、以下で説明する各例は、組み合わせて実施することができる。

（音素に基づく変換）
音声認識部１４は、音素数、及び音素での編集距離に基づいて、入力された音声に対する修正候補の文字列を決定してもよい。この場合、音声認識部１４は、機械学習等を用いる音声認識エンジンから出力された複数の修正候補の文字列の音素数と、入力された音声の音素数との差、及び音素での編集距離を算出する。そして、音声認識部１４は、出力された複数の修正候補のうち、算出した各値の少なくとも一方の値または合計値が小さい順に、所定数（例えば、１以上）の文字列を、入力された音声に対する修正候補として決定してもよい。

また、音声認識部１４は、図９に示す誤認識音素列統計ＤＢ１１１に記憶されている、誤認識された音素列の履歴に基づいて、入力された音声に対する修正候補の文字列を決定してもよい。

図９の例では、誤認識音素列統計ＤＢ１１１には、誤り音素列と正解音素列の組に対応付けて、誤り回数が記憶されている。誤り音素列は、過去に音声が誤認識されて出力された音素列である。正解音素列は、誤認識された音素列に対する正解の音素列である。誤り回数は、誤認識された回数である。誤認識音素列統計ＤＢ１１１に記憶される情報は、例えば、各ユーザ等に対して予め設定されていてもよい。図９の例では、誤認識された音素列/kyua/と正解の音素列/kiwa/との組に対して、誤認識された回数が２２０回であること等が記録されている。また、誤認識された音素列/de/と正解の音素列/re/との組に対して、誤認識された回数が１６３回であること等が記録されている。

音声認識部１４は、第２音素列に含まれる音素列のうち、誤認識音素列統計ＤＢ１１１において誤り音素列の項目に記録されており、かつ誤認識された回数が所定の閾値以上である組を抽出する。図９の例では、誤認識された回数が所定の閾値以上である組として、例えば、第２音素列に含まれる/kyua/が/kiwa/等に対応付けて登録されており、第２音素列に含まれる/de/が/re/等に対応付けて登録されているとする。

第２音素列が/sekyuade/という音素列である場合、音声認識部１４は、例えば、第２音素列中の/kyua/を/kiwa/に変換した/sekiwade/という音素列や、第２音素列中の/de/を/re/に変換した/sekyuare/という音素列や、/kyua/と/de/の両方を/kiwa/と/re/に変換した/sekiware/という音素列を生成する。そして、音声認識部１４は、生成した音素列が、音素列と単語の文字列との組のデータ集合が予め設定されているデータベースに記憶されている音素列に合致する場合、当該音素列に対応する単語の文字列を、入力された音声に対する修正候補として決定してもよい。この場合、音声認識部１４は、例えば、上述した/sekiware/という音素列に対応する「席割れ」等を修正候補として決定する。

また、音声認識部１４は、生成した音素列が、当該データベースに記憶されている各音素列に分割できる場合、各音素列にそれぞれ対応する各単語の文字列を連結した文字列を、入力された音声に対する修正候補として決定してもよい。この場合、音声認識部１４は、例えば、上述した/sekiwade/という音素列に対応する「積和で」等を修正候補として決定する。

（音声認識された内容に基づく変換）
音声認識部１４は、音声認識された内容に基づいて、入力された音声に対する修正候補の文字列を決定してもよい。この場合、音声認識部１４は、図１０に示す誤認識文字列統計ＤＢ１１２に記憶されている、誤認識された文字列の履歴に基づいて、入力された音声に対する修正候補の文字列を決定してもよい。

図１０の例では、誤認識文字列統計ＤＢ１１２には、誤り内容と修正内容（正解内容）の組に対応付けて、誤り回数が記憶されている。誤り内容は、過去に音声が誤認識されて出力された文字列である。修正内容は、誤認識された文字列に対する正解の文字列である。誤り回数は、誤認識された回数である。誤認識文字列統計ＤＢ１１２に記憶される情報は、例えば、各ユーザ等に対して予め設定されていてもよい。図１０の例では、誤認識された文字列「セキュアで」と正解の文字列「積和で」との組に対して、誤認識された回数が２２０回であること等が記録されている。

音声認識部１４は、入力された音声を音声認識することにより、入力された音声を文字列に変換する。そして、音声認識部１４は、変換した文字列のうち、誤認識文字列統計ＤＢ１１２において誤り内容の項目に記録されており、かつ誤認識された回数が所定の閾値以上である組を抽出する。図１０の例では、誤認識された回数が所定の閾値以上である組として、音声認識された文字列に含まれる「セキュアで」が「積和で」等に対応付けて登録されているとする。この場合、音声認識部１４は、「積和で」等を、入力された音声に対する修正候補として決定してもよい。

また、音声認識部１４は、生成した文字列が、当該データベースに記憶されている各文字列に分割できる場合、各文字列にそれぞれ対応する各単語の文字列を連結した文字列を、入力された音声に対する修正候補として決定してもよい。

（特定の用語に基づく変換）
音声認識部１４は、第１修正候補の文字列に、予め記憶部１１に登録されている特定の用語が含まれる場合、当該第１修正候補に含まれる当該特定の用語を他の語句に変換した第２修正候補と、当該第１修正候補とを対応付けて、修正候補の一つとして表示してもよい。当該特定の用語には、例えば、放送禁止用語、放送自粛用語、及び方言等の用語が含まれてもよい。

例えば、図１１の表示画面１１０１において、１番目の修正候補の文字列に当該特定の用語が含まれる場合、音声認識部１４は、１番目の修正候補の文字列４１３１Ａを、予め記憶部１１に当該特定の用語に対応付けて記憶されている別の用語に置換した文字列とする。そして、音声認識部１４は、文字列４１３１Ａの横に、７番目１１０２の修正候補の文字列１１０３として、置換していない当該特定の用語が含まれる文字列としてもよい。この場合、音声認識部１４は、当該文字列に対応付けて、当該特定の用語である旨を示す警告のメッセージ１１０４やアイコン１１０５等を表示させてもよい。

これにより、例えば、生放送の番組において、コンテーターが方言等の用語を使用した場合、当該方言等の用語を公用語等の用語に変換した文字列と、当該方言等の用語の文字列とが対応付けて表示される。そのため、字幕用に音声認識された文字列を修正するオペレータは、容易に字幕用の文字列を修正することができる。

＜変形例＞
例えば、１以上のコンピュータを備える、情報処理装置１０以外の処理資源（クラウドコンピューティング）により、情報処理装置１０の各機能部のすべてまたは一部が実現されていてもよい。

＜実施形態の効果＞
従来、テレビ放送において字幕を表示させる技術が普及している。スポーツ実況や情報番組で放送される実況や解説の音声は、会場の騒音レベルが高く、出演者の発話スタイルも様々であるため、放送される音声を音声認識させた場合、音声認識の精度が低い場合がある。そのため、専門のアナウンサー（字幕キャスター）が、生放送等の番組で実際に放送された実況や解説の音声をヘッドホンで聞き取りながら、聞き取った内容を要約して言い直す。そして、言い直された音声を音声認識させることにより、精度が比較的高い字幕用の文字列を生成する手法が知られている。この手法は、例えば、「リスピーク方式」等と称されている。

この「リスピーク方式」では、修正を担当するオペレータが、音声認識により生成された字幕用の文字列の誤り（間違い）を目視で確認し、誤りがある箇所をマウスで指定し、キーボード入力により当該誤りがある箇所を修正している。そのため、修正のための操作に手間や時間がかかる。

上述した実施形態によれば、表示されている文に対する音に関する情報のうち、受け付けた音声の音に関する情報と類似性がある部分を特定し、特定した部分に対応する文字列を、当該音声に応じた文字列に基づいて修正する。これにより、文中の文字列をユーザが容易に修正できる。

以上、本発明の実施例について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

以上の説明に関し、更に以下の項を開示する。
（付記１）
コンピュータに、
複数の単語を含む文を表示部に表示させた後で音声の入力を受け付ける処理と、
前記文の音に関する情報である第１の音情報を取得する処理と、
前記受け付ける処理により受け付けた音声の音に関する情報である第２の音情報を取得する処理と、
前記第１の音情報のうち、前記第２の音情報と所定の類似性がある部分を特定する処理と、
特定した前記部分に対応する前記文中の文字列を、前記第２の音情報に応じた文字列に基づいて修正する処理と、を実行させるプログラム。
（付記２）
前記特定する処理では、前記第１の音情報に含まれる音素列と、前記第２の音情報に含まれる音素列との類似度に基づいて前記部分を特定する、
付記１に記載のプログラム。
（付記３）
前記特定する処理では、前記第１の音情報に含まれる音声の波形と、前記第２の音情報に含まれる音声の波形との類似度に基づいて前記部分を特定する、
付記１または２に記載のプログラム。
（付記４）
前記特定する処理では、前記第１の音情報に含まれる音素列と、前記受け付ける処理により受け付けた音声の音素列を音素列の誤認識に関する履歴情報に基づいて変更した音素列と、に基づいて、前記部分を特定する、
付記１から３のいずれか一項に記載のプログラム。
（付記５）
前記修正する処理では、特定した前記部分に対応する前記文中の文字列の修正候補として、前記第２の音情報に含まれる音素列に対応する文字列、及び前記第２の音情報に含まれる音素列を変更した音素列に対応する文字列を前記表示部に表示させる、
付記１から４のいずれか一項に記載のプログラム。
（付記６）
前記修正する処理では、特定した前記部分の文字列を、前記表示部に表示させた複数の修正候補の各文字列からユーザにより選択された文字列で置換する、
付記５に記載のプログラム。
（付記７）
前記複数の修正候補に含まれる第１修正候補に特定の用語が含まれる場合、前記第１修正候補に含まれる前記特定の用語を他の語句に変換した第２修正候補と、前記第１修正候補とを対応付けて表示し、
前記第２修正候補がユーザにより選択された場合、特定した前記部分を、前記第２修正候補の文字列で置換する、
付記６に記載のプログラム。
（付記８）
前記文の単語数、文字数、及び前記文が音声認識により生成される場合の音声の区切りの少なくとも一つに基づいて、前記文を第１範囲と第２範囲とに分割し、前記第１範囲を示す情報を表示させ、
前記特定する処理は、前記第１範囲内に対応する前記第１の音情報のうち、前記第２の音情報と所定の類似性がある部分を特定する、
付記１から７のいずれか一項に記載のプログラム。
（付記９）
複数の単語を含む文を表示部に表示させた後で音声の入力を受け付ける受付部と、
前記文の音に関する情報である第１の音情報を取得し、前記受け付ける処理により受け付けた音声の音に関する情報である第２の音情報を取得する取得部と、
前記第１の音情報のうち、前記第２の音情報と所定の類似性がある部分を特定し、特定した前記部分に対応する前記文中の文字列を、前記第２の音情報に応じた文字列に基づいて修正する修正処理部と、を有する情報処理装置。
（付記１０）
情報処理装置が、
複数の単語を含む文を表示部に表示させた後で音声の入力を受け付ける処理と、
前記文の音に関する情報である第１の音情報を取得する処理と、
前記受け付ける処理により受け付けた音声の音に関する情報である第２の音情報を取得する処理と、
前記第１の音情報のうち、前記第２の音情報と所定の類似性がある部分を特定する処理と、
特定した前記部分に対応する前記文中の文字列を、前記第２の音情報に応じた文字列に基づいて修正する処理と、を実行する情報処理方法。

１０情報処理装置
１１記憶部
１１１誤認識音素列統計ＤＢ
１１２誤認識文字列統計ＤＢ
１２受付部
１３取得部
１４音声認識部
１５表示制御部
１６修正処理部
１７制御部

Claims

コンピュータに、
複数の単語を含む文を表示部に表示させた後で音声の入力を受け付ける処理と、
前記文の音に関する情報である第１の音情報を取得する処理と、
前記受け付ける処理により受け付けた音声の音に関する情報である第２の音情報を取得する処理と、
前記第１の音情報のうち、前記第２の音情報と所定の類似性がある部分を特定する処理と、
特定した前記部分に対応する前記文中の文字列を、前記第２の音情報に応じた文字列に基づいて修正する処理と、を実行させるプログラム。
前記特定する処理では、前記第１の音情報に含まれる音素列と、前記第２の音情報に含まれる音素列との類似度に基づいて前記部分を特定する、
請求項１に記載のプログラム。
前記特定する処理では、前記第１の音情報に含まれる音声の波形と、前記第２の音情報に含まれる音声の波形との類似度に基づいて前記部分を特定する、
請求項１または２に記載のプログラム。
前記特定する処理では、前記第１の音情報に含まれる音素列と、前記受け付ける処理により受け付けた音声の音素列を音素列の誤認識に関する履歴情報に基づいて変更した音素列と、に基づいて、前記部分を特定する、
請求項１から３のいずれか一項に記載のプログラム。
前記修正する処理では、特定した前記部分に対応する前記文中の文字列の修正候補として、前記第２の音情報に含まれる音素列に対応する文字列、及び前記第２の音情報に含まれる音素列を変更した音素列に対応する文字列を前記表示部に表示させる、
請求項１から４のいずれか一項に記載のプログラム。
前記修正する処理では、特定した前記部分の文字列を、前記表示部に表示させた複数の修正候補の各文字列からユーザにより選択された文字列で置換する、
請求項５に記載のプログラム。
前記複数の修正候補に含まれる第１修正候補に特定の用語が含まれる場合、前記第１修正候補に含まれる前記特定の用語を他の語句に変換した第２修正候補と、前記第１修正候補とを対応付けて表示し、
前記第２修正候補がユーザにより選択された場合、特定した前記部分を、前記第２修正候補の文字列で置換する、
請求項６に記載のプログラム。
前記文の単語数、文字数、及び前記文が音声認識により生成される場合の音声の区切りの少なくとも一つに基づいて、前記文を第１範囲と第２範囲とに分割し、前記第１範囲を示す情報を表示させ、
前記特定する処理は、前記第１範囲内に対応する前記第１の音情報のうち、前記第２の音情報と所定の類似性がある部分を特定する、
請求項１から７のいずれか一項に記載のプログラム。
複数の単語を含む文を表示部に表示させた後で音声の入力を受け付ける受付部と、
前記文の音に関する情報である第１の音情報を取得し、前記受け付ける処理により受け付けた音声の音に関する情報である第２の音情報を取得する取得部と、
前記第１の音情報のうち、前記第２の音情報と所定の類似性がある部分を特定し、特定した前記部分に対応する前記文中の文字列を、前記第２の音情報に応じた文字列に基づいて修正する修正処理部と、を有する情報処理装置。
情報処理装置が、
複数の単語を含む文を表示部に表示させた後で音声の入力を受け付ける処理と、
前記文の音に関する情報である第１の音情報を取得する処理と、
前記受け付ける処理により受け付けた音声の音に関する情報である第２の音情報を取得する処理と、
前記第１の音情報のうち、前記第２の音情報と所定の類似性がある部分を特定する処理と、
特定した前記部分に対応する前記文中の文字列を、前記第２の音情報に応じた文字列に基づいて修正する処理と、を実行する情報処理方法。