JP2022100498A - 情報処理装置、制御方法、プログラム - Google Patents

情報処理装置、制御方法、プログラム Download PDF

Info

Publication number
JP2022100498A
JP2022100498A JP2020214508A JP2020214508A JP2022100498A JP 2022100498 A JP2022100498 A JP 2022100498A JP 2020214508 A JP2020214508 A JP 2020214508A JP 2020214508 A JP2020214508 A JP 2020214508A JP 2022100498 A JP2022100498 A JP 2022100498A
Authority
JP
Japan
Prior art keywords
data
voice
recognition
information processing
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020214508A
Other languages
English (en)
Inventor
敬己 下郡山
Itsuki Shimokooriyama
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Marketing Japan Inc
Canon IT Solutions Inc
Original Assignee
Canon Marketing Japan Inc
Canon IT Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Marketing Japan Inc, Canon IT Solutions Inc filed Critical Canon Marketing Japan Inc
Priority to JP2020214508A priority Critical patent/JP2022100498A/ja
Publication of JP2022100498A publication Critical patent/JP2022100498A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

Figure 2022100498000001
【課題】本発明の目的は、音声認識サービスに送信する音声データを適切な位置で区切り、音声認識の精度を向上させる技術を提供することである。
【解決手段】本発明は、音声データの音声認識結果である認識データを取得する情報処理装置であって、一連の音声データから、当該音声データの一部となる部分音声データの開始および終了位置を決定する決定手段と、前記決定された開始および終了位置による部分音声データの音声認識結果として得られる認識データを評価する評価手段と、前記評価した結果に基づいて、前記部分音声データに対する認識データを前記一連の音声データの一部の認識データとして採用するかを判定する判定手段とを備えることを特徴とする。
【選択図】図3

Description

本発明は、音声認識エンジンの精度を向上させる技術に関する。
ろう者が聴者と同様に情報を得ることができるよう支援する方法として、話者の発話内容をテキストで表示する方法がある。例えば、テレビの字幕放送、講演会などでの要約筆記、さらに音声認識により発話を自動的に文字列に変換する技術も用いられている。
しかしながら、音声認識が変換した認識結果テキストを表示する際には、画面の表示文字数を表示領域のサイズを考慮し、人間が読みやすいサイズ(文字数など)に区切ることが重要になる。また、人間の音声に対してテキストを表示するのではなく、自動応答するシステムなども研究されているが、この場合はテキストの意味解釈が重要である。音声認識結果のテキストに対して単に読みやすい文字数に区切ったり、無音(発話が停止と判断される状態)で区切ったりすると意味の解釈が変わるため、一律に区切ることなどはできない。
特許文献1に記載の対話装置は、発話者の音声に無音状態があってもすぐに応答せず話し終わり判定部が、音声認識により得られた入力音声をテキスト化した単位メッセージ(認識結果メッセージ)毎に、発話者が話し終わったか否かを判定する技術が記載されている。話し終わり判定部は、発話者が音声を発しない無音時間が所定時間以上続いた場合だけではなく、例えば話し終わりに用いられることが多い語句(例えば、「~でしょうか」、「~ですが」など)が検出された場合に、発話者が話し終えたと判定する。これにより、発話が一旦区切れたとしてもその時点までの音声認識結果(テキスト)に対して不適切な応答をすることはなく、話し終わったと判定されるまで回答を保留し、話し終わったと判定された時点でそれまでの音声認識結果(テキスト)をまとめて解析し、回答する。
特開2018-165805号公報
特許文献1に記載の技術は、無音や言い淀みの前後であっても、音声認識が適切な認識結果(テキスト)を返すことを前提としている。
しかしながら、そもそも無音時間があるという基準で音声認識する範囲を区切ると適切な認識結果が得られない場合がある(本願発明の図4の404の例)。さらに音声認識サービスなどでは、アプリケーションから一度に要求可能な音声処理を行うデータ量を制限することがある。その場合、音声データを送るアプリケーション側では音声データを区切って送付する必要がある。アプリケーション側で無音時間が一定時間続く位置を特定して区切る場合でも、前述ように音声認識サービス側で区切る場合と同様、文章の意味的に不適切な位置で区切ったのであればそもそも音声認識結果が適切ではない場合がある。
そもそも特許文献1の技術では、音声認識結果は質問応答の“質問”として十分な内容を含まないという意味で不適切な区切りであるものの、文節内での不適切な位置(場合によっては単語の途中)で区切れてしまうような制限があることを前提としていない。音声データ自体を適切な位置で区切ることは、アプリケーション側で区切る場合でもサービス側で区切る場合でも課題として残っている。
本発明の目的は、音声認識サービスに送信する音声データを適切な位置で区切り、音声認識の精度を向上させる技術を提供することである。
本発明は、音声データの音声認識結果である認識データを取得する情報処理装置であって、一連の音声データから、当該音声データの一部となる部分音声データの開始および終了位置を決定する決定手段と、前記決定された開始および終了位置による部分音声データの音声認識結果として得られる認識データを評価する評価手段と、前記評価した結果に基づいて、前記部分音声データに対する認識データを前記一連の音声データの一部の認識データとして採用するかを判定する判定手段とを備えることを特徴とする。
本発明により、音声認識サービスに送信する音声データを適切な位置で区切り、音声認識の精度を向上させる技術を提供することが可能となる。
本発明の実施形態に係るシステム構成の一例を示す図である。 本発明の実施形態に係る音声認識サーバ、情報処理端末のハードウェア構成の一例を示すブロック図である。 本発明の実施形態に係る機能構成の一例を示す図である。 本発明の実施形態に係る発話内容と音声認識結果の一例である。 本発明の実施形態に係る音声認識サーバの処理結果として得られるデータの一例である。 本発明の実施形態に係る音声認識経過の一例である。 本発明の実施形態に係る各種閾値の一例を示す図である。 本発明の実施形態に係る音声認識処理のフローチャートの一例を示す図である。 本発明の実施形態に係る音声認識サーバの処理結果として得られるデータの一例である。
以下、本発明の実施の形態を、図面を参照して詳細に説明する。
図1は、本発明の実施形態に係るシステム構成の一例を示す図である。本発明の実施形態に拘わるシステムは、音声認識サーバ101、情報処理端末102(発話者用を102a、表示用を102bとする)で構成される。ユーザは情報処理端末102aに接続されたマイク104で音声を入力する。情報処理端末102aは、前記音声を音声認識サーバ101に送信して文字列に変換し情報処理端末102b(校正者用)に送り、情報処理端末102b(校正者用)で表示、校正者に提示する。
情報処理端末102a~bは、音声の入力と文字列の出力の入出力双方を兼ね備えていてもよい。また出力は情報処理端末102に接続された表示装置上に対して行うが、プロジェクタなどを用いた構成も、本発明の実施形態に拘わるシステム構成とする。プロジェクタを使う場合であれば、情報処理端末102は発話者用の一台のみで、当該情報処理端末102aに接続したプロジェクタからスクリーンに表示した音声認識結果の文字列を全員が読んでもよい。その場合、発話者用の前記情報処理端末102aで直接、発話者自身あるいは別のユーザが校正者として誤認識を校正してもよい。
さらに音声認識サーバ101は、クラウド上に存在するものであってもよく、その場合には、本システムのユーザは後述する音声認識サーバ101上の機能を、クラウドサービスにより利用する形態であってもよい。すなわち、後述する音声認識部322は音声認識サーバ101から呼び出す他のサーバ上の機能またはクラウド上のサービスであってもよい。すなわちこれらのサービスを他のサーバあるいはクラウドサービスとして利用する形態であっても、本発明の実施形態に拘わるシステム構成とする。
構成例で説明した情報処理端末102a~bは、入出力を兼ね備えていたが、入力専用、出力専用と分かれていてもよい。
音声認識サーバ101と情報処理端末102a~bは同一筐体であってもよい。すなわち、図1における情報処理端末102a~bのうちの1つに音声認識可能なソフトウェアがインストールされていて、音声認識サーバ101を兼ねていてもよい。
図2は、本発明の実施形態に係る音声認識サーバ101、情報処理端末102に適用可能なハードウェア構成の一例を示すブロック図である。
図2に示すように、情報処理サーバ100、音声認識サーバ101、情報処理端末102は、システムバス204を介してCPU(Central Processing Unit)201、RAM(Random Access Memory)203、ROM(Read Only Memory)202、入力コントローラ205、ビデオコントローラ206、メモリコントローラ207、通信I/Fコントローラ208等が接続された構成を採る。
CPU201は、システムバス204に接続される各デバイスやコントローラを統括的に制御する。
また、ROM202あるいは外部メモリ211には、CPU201の制御プログラムであるBIOS(Basic Input/Output System)やOS(Operating System)や、各サーバあるいは各PCが実行する機能を実現するために必要な後述する各種プログラム等が記憶されている。また、本発明を実施するために必要な情報が記憶されている。なお外部メモリはデータベースであってもよい。
RAM203は、CPU201の主メモリ、ワークエリア等として機能する。CPU201は、処理の実行に際して必要なプログラム等をROM202あるいは外部メモリ211からRAM203にロードし、ロードしたプログラムを実行することで各種動作を実現する。
また、入力コントローラ205は、キーボード(KB)209や不図示のマウス等のポインティングデバイス等からの入力を制御する。
ビデオコントローラ206は、ディスプレイ210等の表示器への表示を制御する。尚、表示器は液晶ディスプレイ等の表示器でもよい。これらは、必要に応じて管理者が使用する。
メモリコントローラ207は、ブートプログラム、各種のアプリケーション、フォントデータ、ユーザファイル、編集ファイル、各種データ等を記憶する外部記憶装置(ハードディスク(HD))や、フレキシブルディスク(FD)、あるいは、PCMCIA(Personal Computer Memory Card International Association)カードスロットにアダプタを介して接続されるコンパクトフラッシュ(登録商標)メモリ等の外部メモリ211へのアクセスを制御する。
通信I/Fコントローラ208は、ネットワークを介して外部機器と接続・通信し、ネットワークでの通信制御処理を実行する。例えば、TCP/IP(Transmission Control Protocol/Internet Protocol)を用いた通信等が可能である。
尚、CPU201は、例えばRAM203内の表示情報用領域へアウトラインフォントの展開(ラスタライズ)処理を実行することにより、ディスプレイ210上に表示することが可能である。また、CPU201は、ディスプレイ210上のマウスカーソル(図示しない)等によるユーザ指示を可能とする。
本発明を実現するための後述する各種プログラムは、外部メモリ211に記録されており、必要に応じてRAM203にロードされることによりCPU201によって実行されるものである。
図3は、本発明の実施形態に係る機能構成の一例を示す図である。なお、図1で説明したように情報処理端末102は、発話者用情報処理端末102a、表示用情報処理端末102bの機能をそれぞれ別々の端末に持っても、共通した端末で持ってもよいので、ここではそれぞれを区別せずに説明する。
音声データ受付部では、マイクなどを介して入力された音声データをリアルタイムで受け付けたり、ファイルに保存された音声データを一括で受け付けたりする。後続の図を用いて説明する処理の流れでは、全ての音声データ入力が終わった後、一括して後述する無音部分を特定し音声データを分割しても良いし、リアルタイムで受け付けたデータをバッファ(不図示)に格納し、随時分割しながら処理を進めても良いことはいうまでもない。
また本願発明において「無音部分で音声を分割する/区切る」などの表現を用いるが、必ずしも音声データファイル等を実際に複数に分ける必要は無く、例えば音声データの開始時の時間を基準として特定の位置を分割点とするなどの方法により論理的に分割してもよいことはいうまでもない。
着目位置・範囲決定部312は、ある特定の位置、すなわち前述の分割により区切られた音声データのうちの1つに着目し、その前後(複数の分割)を組み合わせた1または複数の範囲を決定する。
音声認識要求部313は、前記一又は複数の範囲に相当する音声データの音声認識を音声認識サーバ101に要求する。音声認識サーバ101の音声認識要求受付部321は、音声認識要求部313からの要求を受け付け、音声認識部322で音声認識を実行する。
音声認識の実行結果には、発話内容を文字列として表現した「文章」(単語、文節など)の他に、音声認識の確信度(図5を参照)、音声データの中に現れる時刻(音声データの最初からの位置)などが記載される。また、連続して認識した結果も形態素などに分割されている場合もあり、この場合、形態素毎の確信度が付与される場合もある。これらは周知の技術であり本願発明では特に説明せずに用いる。
音声認識結果送信部323は、前述の音声認識結果を音声認識結果取得部314に送信する。実際には、音声認識結果取得部314から認識結果を要求し、当該要求に従って送信しても良い。一方向、双方向何れの通信であっても本願発明の実施例に含むものとする。
評価部315は、音声認識結果取得部314で取得した音声認識結果(1または複数)から最適なものを選択する。また、以前の処理結果と重複した部分(同一の音声データに対応する部分)があるか否かを確認し、重複がある場合は一方を選択する。また、選択結果として次に音声認識するための音声データの位置(着目位置)が決まるので、評価完了時点の情報を着目位置・範囲決定部312に送る。
さらに認識結果提示部316は、最終的に確定した音声認識結果を情報処理端末102に接続された表示装置などに表示する。
図4は、本発明の実施形態に係る発話内容と音声認識結果の一例である。発話例(読み)401で示すように、本願発明の実施形態を説明するための発話を便宜上平仮名の文字列として表記する。また認識例(正解)402は、音声認識結果として期待する文字列(正解例)を示している。
403は、401と同じく平仮名文字列であるが、さらに無音時間を「・」または「・・」で表した記号を付与している。無音時間とは発話者が音声を発していない無音状態が続く時間のことであり、文章と文章の区切りや文節間の区切りであれば音声認識にとって都合が良い。音声認識サービスに長時間の音声データを渡すことが可能である場合、音声認識サービスは例えば0.8秒間、音声がない無音時間が続けば文章が区切れたと自動的に判断して、それより前の部分を音声認識処理により文字列に変換する。また、音声認識サービスが自動的に判断しない場合や長時間の音声データを渡すことが出来ない場合(例えば20秒分の音声データしか渡せないという制約がある場合)には、アプリケーション側で何らかの基準に区切って音声データを渡すことになる。例えば、20秒以内の音声データの中で、無音時間が閾値より長い部分で区切る、などの方法をとることになる。
しかし閾値で判断すると、20秒以内の音声データ内に閾値で設定された以上の無音時間がない場合にはやむを得ず20秒ちょうどで区切ったり、あるいは閾値をさらに小さくしたりするなどして不適切な位置で区切ることになる。即ち、発話者が音声認識サービスやアプリケーションにとって都合良く発話を区切り無音時間を作るわけではないため、問題が発生する。
403の例では「・」は閾値を下回る短い無音時間、「・・」は閾値を上回る無音時間の無音状態があることを示している。ここで「・・」で区切った場合は、発話内容は404の左の枠内のように4行で表すことが出来る。404の左の枠内にある4行をそれぞれ音声認識すると例えば右の枠内のような結果を得る。この例では、411、412の部分が誤って音声認識処理されている。
また405では閾値を下回る短い無音時間「・」および「・・」で区切った場合の例を示す。P1~P9の9個の音声データに分割されており(中央の欄「発話(読み)の部分」)、期待される認識結果を右の欄に記載する。実際には文脈をもとに確率的言語モデルを用いて同音異表記語など区別するが、区切りを細かくした場合にはそのようなことができない場合もある。すなわち405のように細かく区切れば良いわけではないことはいうまでもない。
図5は、本発明の実施形態に係る音声認識サーバの処理結果として得られるデータの一例である。500は図4の404に相当する認識結果の出力例である。
”result”の中に4つの認識結果の関連情報がある。本例では閾値(例えば0.8秒以上)の無音時間があると、出力を分けている。なお無音時間は前後の認識結果に含まれないため、連続する認識結果間で時間に空きがある。
個々の認識結果の関連情報には、”transcript”、”confidence”、”start_time”、”end_time”が記載されている。
”transcript”は、音声認識の結果として出力される文字列(図4の404、右の記載に相当)、”confidence”は(例えば確率的言語モデルにより)前記認識結果の尤もらしさを0~1の数値で表したものである。また”start_time”、”end_time”は、処理した音声データの起点(例えば0秒)に対して、”transcript”に記載された発話が成された時間の最初と最後に対応する。例では、秒単位で小数二桁までで表し、また無音時間は前後何れにも含んでいない。
音声認識サービスによっては、さらに細かく単語や形態素毎に分割していたり、また図5のような1つの結果だけではなく、”confidence”が異なる複数の候補を出力したりするものもある。
また”confidence”に相当する情報を返さないサービスもあるが、その場合はアプリケーション側によって取得した結果の文字列を確率的言語モデルなどを用いて、尤度を計算することも可能であることは周知の技術であり、詳細の説明は省略する。また尤度の計算にAIによる学習モデルを用いてもよい。
次に図6~図9を用いて、実際に音声認識処理を実行する例を説明する。図8は、本発明の実施形態に係る音声認識処理のフローチャートの一例を示す図である。
ステップS801においては、マイクなどを通して発話者から音声データを受け付け、音声データバッファに格納する。前述の通り、音声データファイルとして予め全データが保存されていても良いが、リアルタイムな入力では時間順に保存され、時間とともに音声データが長くなっていく。以降、この音声データを用いて処理を実行していく。
ステップS802においては、音声データの先頭を着目位置として設定する。本例では、図4の短い無音状態「・」でも全て分割するものとして、405のように分割番号を付与する。そのため最初の着目位置は先頭のP1、すなわち「かみきの」の音声となる。
ステップS803においては、一度に認識させる音声データの範囲を決定する。図7の閾値記憶部700から、一度に認識させる範囲は着目位置よりも「前方分割数」が”-1”の部分(今回は着目位置が先頭のため存在しない)、「後方分割数」が2までの部分(後方の区切り1つ~2つ)、すなわち「えいぎょうせいせき」(P2)、「ですが」(P3)の2つの区切りとなる。ここで、本来であればP2とP3の間は長い無音時間「・・」であるため、音声認識サーバの処理で自動的に区切られてしまう可能性がある。それを防ぐためには音声認識サーバが無音状態を認識して区切るための時間を前記の0.8秒から例えば1.2秒のように延ばし、自動的には区切られないようにすることが考えられる。また音声データ側の無音時間に相当する部分を削除して、音声認識サーバの設定(前記の0.8秒)以下に短くすることで、自動的には区切られないようにしても良い。1つの音声データとして一括した認識処理が実行されるのであれば、何れの方法であっても本願発明の処理として考えて良い。
ステップS804においては、図6の実行途中経過(1回目)601に記載の通り、初回はP1~P2、またはP1~P3の2パターンの区切りの連続した音声データを認識要求する。
ステップS805においては、1または複数の音声認識要求を受け付け、ステップS806においてそれらの音声認識を実行し、図5のような音声認識結果を取得する。ただし今回はP1~P2、P1~P3の2パターンの連続した音声認識要求したため、P1~P2に対する形式の結果が一つ(図9の500-P1~P2)、同様にP1~P3に対応する図5の形式の結果(図9の500-P1~P3)が一つ、それぞれ得られる(図9は基本的に図5と同じ形式であり、そのうち1つの区切りに対して認識処理した結果のみを記載したものである)。
ステップS807においては、図9で示した認識結果(例)を情報処理端末に送信し、ステップS808(情報処理端末102の音声認識結果取得部314)で受信する。
ステップS809においては、受信した1または複数の音声認識結果を評価する。音声認識サービスが付与した図9の”confidence”により評価しても良いし、独自に確率的言語モデルを用いた処理で評価しても良い。
ステップS810においては、ステップS809の評価に基づき、最適と思われるものを選択する。例えば図9で”confidence”の値が高い方の”上期の営業成績ですが”を選択する。これは図6の実行途中経過(1回目)601のP1~P3(”☆”マークが付与されているもの)に相当する。
ステップS811では、前回の音声認識、評価・選択の処理結果がある場合には重複部分があるか否かを判断し重複部分がある場合にはいずれかを選択する。この選択にも確率的言語モデルなどを用いることが出来る。
ステップS812においては、音声データバッファに入力された音声で、まだ音声認識が未処理のデータがあるか否かを判断する。未処理のデータがない場合には本フローチャートを完了する。未処理のデータがある場合にはステップS813に進む。
ステップS813においては、次に音声認識処理を行う範囲を特定するための”着目位置”を決定する。本例では、1回目の処理が終わった時点でP1~P3の認識結果が得られているため、P4を”着目位置”とし、ステップS803の処理に戻る。
ステップS803(2回目)においては、着目位置がP4なので、図6の602のように前方分割数1つ(P3)、後方分割数2つ(P5またはP6まで)となる。以降の処理ステップS804~ステップS813を繰り返し、図6の602の一番最下行P4~P6が選択されたとする。前回の処理結果であるP1~P3との間に重複部分がないため、そのまま結果として選択される。さらにP7が着目位置となり、ステップS803に戻る。
ステップS803(3回目)においては、図6における603のP6~P9の範囲で前述同様の処理が繰り返され、ステップS810までの処理でP6~P8の音声認識結果”デモ営業利益が二億の黒字と”という結果が選択されたとする。
ここで、2回目の処理結果のP6「でも」、3回目の処理結果のP6「デモ」は重複している。この重複をステップS811にて判断する。重複しているか否かは、音声データの時刻による位置と、音声認識結果に含まれる(形態素単位の詳細の)時刻(不図示)から判断することが出来る。また音声認識結果に形態素単位の詳細の時刻が付与されていないサービスもあるが、そのような場合にはアプリケーション側で形態素解析を行ったうえでその文字の読みを取得し(例えば平仮名表記に統一)当該読みが一致することで判定するなどしても良い。この判定の方法は如何なる方法でもよいことはいうまでもない。
さらに重複している場合、どちらを選択するか(本例では602の「でも」か603「デモ」か)を判断する。例えば、2回目の処理の結果として選択したP4~P6と3回目の処理の結果として選択した範囲P6~P8をマージしたP4~P8の音声認識結果を2パターン用意し、前述の通り確率的言語モデルを用いて、どちらが尤もらしいかを評価しても良い。本例では例えば603の結果の「でも」が選択されたとする。さらに残ったP9に対して同様の処理を繰り返し、音声全体の音声認識結果を取得する。
期待する結果は図4の認識例(正解)402である。これにて図8のフローチャートの処理の説明を完了する。
以上、図6~図9を用いて、本願発明の実施形態を説明した。前述の通り音声認識は区切りが適切であるだけではなく、文脈(文節、単語の連続)を用いて同音異表記や複数の意味的な区切り方があるうち、確率的に尤もらしいものを選択して結果として取得する。従って、ある一定の長さの音声データをまとめて処理する必要がある。特に図7で例示した「前方分割数:-1」、「後方分割数:2」では十分な音声データ長にならないのであればこれらの数字を変更しても良い。分割無音時間についても「0.4秒」はあくまで例であり、必要に応じて変更して良いことはいうまでもない。
以上、いくつかの実施形態について示したが、本発明は、例えば、システム、装置、方法、コンピュータプログラムもしくは記録媒体等としての実施態様をとることが可能であり、具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
また、本発明におけるコンピュータプログラムは、図8に示すフローチャートの処理方法をコンピュータが実行可能なコンピュータプログラムであり、本発明の記憶媒体は図8の処理方法をコンピュータが実行可能なコンピュータプログラムが記憶されている。なお、本発明におけるコンピュータプログラムは図8の各装置の処理方法ごとのコンピュータプログラムであってもよい。
以上のように、前述した実施形態の機能を実現するコンピュータプログラムを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたコンピュータプログラムを読出し実行することによっても、本発明の目的が達成されることは言うまでもない。
この場合、記録媒体から読み出されたコンピュータプログラム自体が本発明の新規な機能を実現することになり、そのコンピュータプログラムを記憶した記録媒体は本発明を構成することになる。
コンピュータプログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD-ROM、CD-R、DVD-ROM、磁気テープ、不揮発性のメモリカード、ROM、シリコンディスク、ソリッドステートドライブ等を用いることができる。
また、コンピュータが読み出したコンピュータプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのコンピュータプログラムの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、記録媒体から読み出されたコンピュータプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのコンピュータプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
また、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。また、本発明は、システムあるいは装置にコンピュータプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのコンピュータプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。
さらに、本発明を達成するためのコンピュータプログラムをネットワーク上のサーバ、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。 なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。
101 音声認識サーバ
102 情報処理端末
311 音声データ受付部
312 着目位置・範囲決定部
313 音声認識要求部
314 音声認識結果取得部
315 評価部
316 音声認識結果提示部
321 音声認識要求受付部
322 音声認識部
323 音声認識結果送信部

Claims (8)

  1. 音声データの音声認識結果である認識データを取得する情報処理装置であって、
    一連の音声データから、当該音声データの一部となる部分音声データの開始および終了位置を決定する決定手段と、
    前記決定された開始および終了位置による部分音声データの音声認識結果として得られる認識データを評価する評価手段と、
    前記評価した結果に基づいて、前記部分音声データに対する認識データを前記一連の音声データの一部の認識データとして採用するかを判定する判定手段
    とを備えることを特徴とする情報処理装置。
  2. 前記決定手段は、共通の音声データの範囲を含む複数の部分音声データの開始および終了位置を決定し、
    前記判定手段は、前記複数の部分音声データに対する認識データそれぞれを評価した結果に基づいて、いずれの認識データを前記一連の音声データの一部の認識データとして採用するかを判定することを特徴とする請求項1に記載の情報処理装置。
  3. 前記決定手段は、前記一連の音声データの中の無音部分を前記部分音声データの開始および終了位置として決定することを特徴とする請求項1または2に記載の情報処理装置。
  4. 前記決定手段は、前記一連の音声データの中の無音部分により区分される音声データを所定数含むように前記部分音声データの開始および終了位置を決定することを特徴とする請求項3に記載の情報処理装置。
  5. 前記評価手段は、前記認識データが音声認識される際の確からしさに基づいて評価することを特徴とする請求項1~4のいずれか1項に記載の情報処理装置。
  6. 前記評価手段は、前記認識データの尤度に基づいて評価することを特徴とする請求項1~4のいずれか1項に記載の情報処理装置。
  7. 音声データの音声認識結果である認識データを取得する情報処理装置の制御方法であって、
    決定手段が、一連の音声データから、当該音声データの一部となる部分音声データの開始および終了位置を決定する決定ステップと、
    評価手段が、前記決定された開始および終了位置による部分音声データの音声認識結果として得られる認識データを評価する評価ステップと、
    判定手段が、前記評価した結果に基づいて、前記部分音声データに対する認識データを前記一連の音声データの一部の認識データとして採用するかを判定する判定ステップ
    とを備えることを特徴とする情報処理装置の制御方法。
  8. 音声データの音声認識結果である認識データを取得する情報処理装置において実行可能なプログラムであって、
    前記情報処理装置を、
    一連の音声データから、当該音声データの一部となる部分音声データの開始および終了位置を決定する決定手段と、
    前記決定された開始および終了位置による部分音声データの音声認識結果として得られる認識データを評価する評価手段と、
    前記評価した結果に基づいて、前記部分音声データに対する認識データを前記一連の音声データの一部の認識データとして採用するかを判定する判定手段
    として機能させるためのプログラム。
JP2020214508A 2020-12-24 2020-12-24 情報処理装置、制御方法、プログラム Pending JP2022100498A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020214508A JP2022100498A (ja) 2020-12-24 2020-12-24 情報処理装置、制御方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020214508A JP2022100498A (ja) 2020-12-24 2020-12-24 情報処理装置、制御方法、プログラム

Publications (1)

Publication Number Publication Date
JP2022100498A true JP2022100498A (ja) 2022-07-06

Family

ID=82271474

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020214508A Pending JP2022100498A (ja) 2020-12-24 2020-12-24 情報処理装置、制御方法、プログラム

Country Status (1)

Country Link
JP (1) JP2022100498A (ja)

Similar Documents

Publication Publication Date Title
US10679611B2 (en) Adaptive interface in a voice-based networked system
CN109637519B (zh) 语音交互实现方法、装置、计算机设备及存储介质
US11238854B2 (en) Facilitating creation and playback of user-recorded audio
US6801897B2 (en) Method of providing concise forms of natural commands
US20180061408A1 (en) Using paraphrase in accepting utterances in an automated assistant
KR101143034B1 (ko) 음성 명령을 명확하게 해주는 중앙집중식 방법 및 시스템
KR102439740B1 (ko) 제작자 제공 콘텐츠 기반 인터랙티브 대화 애플리케이션 테일링
CN112334976B (zh) 利用本地文本响应映射呈现对用户的口头话语的响应
CN110164435A (zh) 语音识别方法、装置、设备及计算机可读存储介质
US20030046071A1 (en) Voice recognition apparatus and method
JP2001188777A (ja) 音声をテキストに関連付ける方法、音声をテキストに関連付けるコンピュータ、コンピュータで文書を生成し読み上げる方法、文書を生成し読み上げるコンピュータ、コンピュータでテキスト文書の音声再生を行う方法、テキスト文書の音声再生を行うコンピュータ、及び、文書内のテキストを編集し評価する方法
CN113412514A (zh) 用于设备上语音识别模型的训练的文本片段的设备上语音合成
JP7230145B2 (ja) 自動音声認識のためのコンテキスト非正規化
US20220188525A1 (en) Dynamic, real-time collaboration enhancement
US20200394258A1 (en) Generation of edited transcription for speech audio
KR20050008723A (ko) 말하는 전자책
Płaza et al. Call transcription methodology for contact center systems
CN116368459A (zh) 用于智能听写的自动化助理的话音命令
US20080243510A1 (en) Overlapping screen reading of non-sequential text
US11314942B1 (en) Accelerating agent performance in a natural language processing system
WO2020121638A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP2022100498A (ja) 情報処理装置、制御方法、プログラム
JP6347939B2 (ja) 発話内重要語抽出装置とその装置を用いた発話内重要語抽出システムと、それらの方法とプログラム
JP3848181B2 (ja) 音声合成装置及びその方法、プログラム
JP7189416B2 (ja) 情報処理装置、制御方法、プログラム