JP2022129403A - 制御プログラム、制御方法、および情報処理装置 - Google Patents

制御プログラム、制御方法、および情報処理装置 Download PDF

Info

Publication number
JP2022129403A
JP2022129403A JP2021028033A JP2021028033A JP2022129403A JP 2022129403 A JP2022129403 A JP 2022129403A JP 2021028033 A JP2021028033 A JP 2021028033A JP 2021028033 A JP2021028033 A JP 2021028033A JP 2022129403 A JP2022129403 A JP 2022129403A
Authority
JP
Japan
Prior art keywords
speed
segment
speech recognition
playback speed
playback
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021028033A
Other languages
English (en)
Inventor
貴大 近藤
Takahiro Kondo
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2021028033A priority Critical patent/JP2022129403A/ja
Publication of JP2022129403A publication Critical patent/JP2022129403A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】音声認識されたテキストの確認作業の効率を向上させる制御プログラム、制御方法および情報処理装置を提供する。【解決手段】情報処理装置および音声録音装置を含む音声認識システムにおいて、情報処理装置101は、音声データに音声認識を実行して出力されるテキストのセグメントに含まれる表現要素に対する過去の音声認識の結果に行われた修正に基づき特定される誤り頻度が所定の頻度を超える場合、セグメントと対応する音声領域の再生速度の設定を第1の速度から第1の速度よりも速い第2の速度に変更する設定部211と、設定された再生速度に従って音声データを再生する再生部212と、を含む。【選択図】図2

Description

本発明は、制御プログラム、制御方法、および情報処理装置に関する。
例えば、会議の議事録の作成などのために、音声データにおける人の発話の内容をテキスト化する文字起こしの作業が行われている。こうした文字起こしの作業に、例えば、人の発話をテキストデータに変換する音声認識を利用する試みも成されている。
また、音声認識の結果は誤りを含むことがある。そのため、音声データに音声認識を実行して得られたテキストデータが、人の発話の内容を正しく表しているかを確認する確認作業も行われている。
これに関し、音声信号の音声認識から取得されたテキストの手動的な補正を支援することに関する技術が知られている(例えば、特許文献1)。また、音声認識システムにおいて、認識結果に対して事後確率などを用いて信頼度を付与することに関する技術が知られている(例えば、非特許文献1)。
特開2003-131694号公報
李 晃伸 他、「2パス探索アルゴリズムにおける高速な単語事後確率に基づく信頼度算出法」情報処理学会研究報告、2003年12月、2003-SLP-49-48
上述のように、音声認識されたテキストの確認作業が行われている。確認作業は、一例では、実際に音声データを再生し、作業者が聞くことで音声認識結果の正誤を判定し、誤りがある場合には正しいテキストに変換することで行われる。この場合、例えば、作業者は全ての音声を聞き直して誤った箇所の修正を行うため、多大な時間を要することがある。そのため、音声認識されたテキストを確認作業の効率を高める更なる技術の提供が望まれている。
1つの側面では、本発明は、音声認識されたテキストの確認作業の効率を向上させることを目的とする。
本発明の一つの態様の情報処理装置は、音声データに音声認識を実行して出力されるテキストのセグメントに含まれる表現要素に対する過去の音声認識の結果に行われた修正に基づき特定される誤り頻度が、所定の頻度を超える場合、セグメントと対応する音声領域の再生速度の設定を、第1の速度から第1の速度よりも速い第2の速度に変更する設定部と、設定部が設定した再生速度に従って音声データを再生する再生部と、を含む。
音声認識されたテキストの確認作業の効率が向上する。
実施形態に係る音声認識システムの構成を例示する図である。 実施形態に係る情報処理装置の機能ブロック構成を例示する図である。 実施形態に係るエントロピーと誤り頻度とを対応づけたグラフである。 実施形態に係る再生速度情報を例示する図である。 実施形態に係る音声認識の出力結果を例示する図である。 実施形態に係る修正情報を例示する図である。 実施形態に係る頻度情報を例示する図である。 実施形態に係る音声認識結果のセグメントに対する再生速度の決定を例示する図である。 実施形態に係る音声データと対応する複数のセグメントに対して決定された再生速度を含む設定情報を例示する図である。 実施形態に係る音声データの再生速度決定処理の動作フローを例示する図である。 実施形態の変形例に係る再生速度の変更を例示する図である。 実施形態の変形例に係る音声データの再生速度決定処理の動作フローを例示する図である。 実施形態に係る情報処理装置を実現するためのコンピュータのハードウェア構成を例示する図である。
以下、図面を参照しながら、本発明のいくつかの実施形態について詳細に説明する。なお、複数の図面において対応する要素には同一の符号を付す。
図1は、実施形態に係る音声認識システム100の構成を例示する図である。図1では音声認識システム100は、例えば、情報処理装置101および音声録音装置102を含む。音声録音装置102は、例えば、会議などで人の発話を録音して音声データを生成する。音声録音装置102で生成された音声データは、例えば、有線通信および無線通信などの通信を介して情報処理装置101に提供されてよい。別の実施形態では、音声データは、例えば、USB(Universal Serial Bus)メモリなどの着脱可能記憶媒体を介して情報処理装置101に提供されてもよい。
情報処理装置101は、一例では、音声データに対して音声認識処理を実行し、音声認識結果として人の発話の内容をテキスト化したテキストデータを生成する。また、情報処理装置101は、例えば、後述する実施形態に係る音声認識結果の確認のための音声データの再生速度の決定処理を実行する。
図2は、実施形態に係る情報処理装置101の機能ブロック構成を例示する図である。情報処理装置101は、例えば、制御部201、記憶部202、および通信部203を含む。制御部201は、例えば設定部211、および再生部212などを含み、またその他の機能部を含んでもよい。情報処理装置101の記憶部202は、例えば、後述する再生速度情報400、出力結果500、修正情報600、頻度情報700、設定情報900,1100などの情報を記憶している。通信部203は、例えば、制御部201の指示に従って音声録音装置102などの他の装置と通信する。これらの各部の詳細および記憶部202に格納されている情報の詳細については後述する。
続いて、実施形態に係る音声認識結果の確認のための音声データの再生速度の決定処理について説明する。
上述のように、音声認識されたテキストの確認作業は、例えば、実際に音声データを再生し、作業者が聞くことで音声認識結果の正誤を判定し、誤りがある場合には正しいテキストに変換することで行われる。この場合、例えば、作業者は全ての音声を聞き直して誤った箇所の修正を行うため、多大な時間を要することがある。そのため、音声認識されたテキストを確認作業の効率を高める更なる技術の提供が望まれている。
音声認識されたテキストの確認作業の効率を高める一つの手法として、例えば、音声認識されたテキストの確認作業の際の音声データの再生速度をオリジナルの再生速度よりも速くすることが考えられる。なお、オリジナルの再生速度は、例えば、等倍速、および1.0倍速と呼ばれてもよい。それにより、音声認識されたテキストの確認作業にかかる時間を短縮することが可能である。
しかしながら、例えば、音声認識されたテキストの再生速度を速くすると、確認作業を行う作業者にとって音声が聞き取りづらくなる傾向がある。そのため、音声認識されたテキストの再生速度を速くしすぎてしまうと、結果として作業者がその音声領域の音声を十分に聞き取ることができず、対応するテキストの正誤を確認することができなくなることがある。その結果、作業者は、例えば、確認対象の音声領域を巻き戻して聞き直したり、再生速度を遅く変更して再生したりすることになり、確認作業にかかる時間がかえって長くなってしまうことがある。そのため、音声認識されたテキストの確認作業の際の音声データの再生速度を、作業者にとって確認しやすい範囲内で適切に速めることのできる技術の提供が望まれている。
以下で述べる実施形態では、制御部201は、音声データを音声認識することでテキスト化した音声認識結果のセグメントに対して、過去の音声認識結果に対する修正などに基づく誤り頻度を特定する。そして、制御部201は、誤り頻度に基づいて音声認識結果のセグメントと対応する音声領域の再生速度を設定する。
例えば、音声認識結果のテキストデータ中のセグメントにおける認識結果の誤り頻度が50%の周辺の所定の範囲内であったとする。この場合、認識結果は、正しかったり、誤っていたりが統一されておらず、作業者はその都度、誤りか否かを注意深く判断することになる。そのため、誤り頻度が50%の周辺にある所定の範囲では、再生速度を速めて確認時間の短縮を図るよりも、作業者の聞き取り易さをおよび確認のし易さを重視して、再生速度をあまり速くしないことが好ましい。この場合、一例では、制御部201は、再生速度を1.2倍速~1.0倍速などの等倍速に近い範囲に設定してよく、別の実施形態では、再生速度を等倍速以下に設定してもよい。それにより、作業者は、音声認識結果の正誤の確認が容易になる。
また、例えば、音声認識では、しばしば同じ認識の誤りが頻発することがある。こうした音声認識において頻繁に発生する誤りは、よく誤るので作業者は慣れており、例え再生速度を速くしたとしても誤りを容易に見つけて修正することができる。従って、例えば、テキストデータのセグメントにおける音声認識結果の誤り頻度が、上述の50%の周辺の所定の範囲の上限を超える高い頻度であった場合、制御部201は、再生速度を速く設定してよい。一例では、制御部201は、誤り頻度が所定の頻度を超える場合、誤り頻度が大きくなるほど再生速度が速くなるようにセグメントと対応する音声領域の再生速度を決定してよい。また、別の実施形態では制御部201は、セグメントと対応する誤り頻度が所定の頻度を超えて高い場合、セグメントと対応する音声領域の再生速度の設定を、等倍速などの第1の速度から、第2の速度(例えば、1.2倍速など)に変更し、再生速度を速めてよい。なお、第2の速度は、例えば、第1の速度より速い速度であってよい。それにより、確認のし易さの低下を抑えつつ確認作業にかかる時間を短縮することができる。
なお、例えば、誤り頻度が低く、誤りの可能性が少ない場合、音声認識結果のテキストは大部分が正しいことが推定され、この場合も作業者は音声認識結果を容易に確認することができる。そのため、一例では、制御部201は、上述の50%の周辺の所定の範囲の下限未満など、誤り頻度が所定の頻度未満である場合、誤り頻度が小さくなるほど再生速度が速くなるようにセグメントと対応する音声データの再生速度を決定してもよい。この様に誤り頻度が低い場合に、速い再生速度に設定することで、確認のし易さの低下を抑えつつ確認作業にかかる時間を短縮することができる。
以上で述べたように、実施形態によれば誤り頻度に応じて音声データの確認作業に適した再生速度を設定することができる。
なお、一実施形態では、誤り頻度に対してエントロピーの概念を導入し、エントロピーの重み付けに応じて再生速度が設定されてもよい。ここで、エントロピーは、例えば、作業者にとっての情報としての価値をあらわしてよい。また、誤り頻度は、一例では、誤りの確率で表されてよい。例えば、誤りがない場合の誤り頻度を0.0(0%)とし、また、誤りが頻発する場合の誤り頻度を1.0(100%)としたとする。この場合に、誤り頻度と、エントロピーとの関係をグラフで表すと、例えば、図3のグラフで表すことができる。
図3は、実施形態に係るエントロピーと誤り頻度とを対応づけたグラフである。図3において、縦軸はエントロピーであり、横軸は誤り頻度である。図3において、誤り頻度が低い領域では、エントロピーが低くなっている。このように、誤り頻度が低い領域では、認識結果が正しい可能性が高く、多くの場合は認識結果が正しいことを確認すればよいため、作業者にとって情報としての価値が薄い。そのため、作業者は誤りの有無を容易に確認することができ、再生速度を速くしても音声認識結果を確認することができる。
また、例えば、誤り頻度が高い領域では、エントロピーが低くなっている。このように、誤り頻度が高い領域では、音声認識結果が間違っている可能性が高いが、作業者は同じ誤りを頻繁に目にしているため、作業者にとって情報としての価値が薄い。そのため、作業者は誤りの有無を容易に確認することができ、再生速度を速くしても音声認識結果を確認することができる。
一方、例えば、図3において、誤り頻度が50%付近の領域では、エントロピーが高くなっている。このように、認識結果が誤っていたり、正しかったりする場合、作業者はその都度、正しいか否かを注意深く判断することになる。そのため、エントロピーの高い領域では、再生速度を速めて時間の短縮を図るよりも、作業者の聞き取り易さをおよび確認のし易さを重視して、再生速度をそれほど速くしないことが好ましい。この場合、一例では、制御部201は、再生速度を1.2倍速~1.0倍速などの等倍速に近い範囲に設定してよく、別の実施形態では、再生速度を等倍速以下に設定してもよい。
以上の観点から、例えば、誤り頻度と対応するエントロピーが低いほど再生速度が速くなるように、一方で、誤り頻度と対応するエントロピーが高いほど再生速度が遅くなるように、誤り頻度に対して再生速度が設定することができる。
図4は、実施形態に係る再生速度情報400を例示する図である。再生速度情報400は、例えば、誤り頻度の範囲と、再生速度とが対応づけて登録されている。誤り頻度範囲には、例えば、誤り頻度の範囲が登録されており、再生速度には誤り頻度の範囲と対応する再生速度が登録されている。再生速度情報400では、誤り頻度と対応するエントロピーが低いほど再生速度が速くなるように、一方で、誤り頻度と対応するエントロピーが高いほど再生速度が遅くなるように、誤り頻度に対して再生速度が設定されている。
例えば、以上のように誤り頻度に対して再生速度を設定することで、音声認識結果の誤り頻度に基づいて、作業者にとって確認がし易い再生速度に維持しつつも、確認作業にかかる時間を短縮することができる。
続いて、音声認識結果のセグメントに対する再生速度の決定について説明する。
図5は、実施形態に係る音声認識の出力結果500を例示する図である。音声認識では、音声データを音声認識ソフトウェアに入力すると、音声認識アルゴリズムに従って音声認識結果のテキストデータがまとまったテキストの単位で順次出力される。そして、一実施形態では、音声データの再生速度を決定する対象とするセグメントとして、音声認識で順次出力されるテキストの単位を用いてよい。以下、音声認識で順次出力されるテキストの単位を音声データの再生速度を決定する対象とするセグメントとして、実施形態を例示する。図5の出力結果500では、音声認識ソフトウェアから順次出力されるテキストをセグメントとして、出力順にセグメントにインデックスが割り当てられており、インデックスと対応づけてセグメントの単位で音声認識結果が登録されている。
そして、作業者は、例えば、音声認識結果を利用して議事録などを作成する場合、音声データを聞きながら出力結果500に登録されている情報に誤りが無いかを確認する。作業者は、誤りがある場合には出力結果500に登録されている情報を修正してよい。また、出力結果500に登録されている音声認識結果に対して作業者が修正を実行した場合、制御部201は、その修正の内容を修正情報600に記録してよい。
図6は、実施形態に係る修正情報600を例示する図である。修正情報600には、例えば、音声認識結果のセグメント、形態素解析結果、修正有無、信頼度、および修正テキストが対応付けられたレコードが登録されている。音声認識結果のセグメントには、例えば、音声データに対して実行された音声認識の結果が、セグメントごとに登録されていてよい。また、修正情報600に登録される情報の元となる音声データは、例えば、過去に音声認識と、その確認作業が実行された1つまたは複数の音声データであってよい。修正情報600の形態素解析結果には、例えば、レコードの音声認識結果のセグメントに形態素解析を実行した結果が登録されていてよい。修正有無は、例えば、レコードの音声認識結果のセグメントに対して修正が実行されたか否かの情報が登録されてよい。例えば、音声認識結果の確認作業で、作業者によりテキストの内容が変更された場合、修正有無には有りが登録されてよい。信頼度は、例えば、レコードの音声認識結果に対する信頼度を評価した評価値であってよい。例えば、音声認識のアルゴリズムによっては、音声認識結果に対して信頼度が出力される。一実施形態では、修正情報600の信頼度には、音声認識アルゴリズムの実行によってレコードの音声認識結果のセグメントに対して出力された信頼度が登録されてよい。音声認識の信頼度には、一例では、非特許文献1に記載される尤度算出のアルゴリズムを用いて得られた尤度を利用することができる。修正テキストは、例えば、レコードの音声認識結果のセグメントに対して修正が加えられた場合に、その修正後のテキストが登録されてよい。
例えば、以上のような修正情報600を参照することで、制御部201は、音声認識結果のセグメントと、形態素解析結果と、修正テキストとの情報から、修正が行われた形態素を特定することができる。そして、制御部201は、例えば、修正情報600に登録されている過去の音声認識結果への修正についての情報に基づき、形態素ごとに修正の有無を集計することで、形態素に対して誤り頻度を決定することができる。
例えば、形態素に対する誤り頻度は、形態素に対する過去の音声認識結果の成功数と誤り数とから以下の式1で計算することができる。
誤り頻度=誤り数/(正解数+誤り数) ・・・式1
続いて、制御部201は、得られた形態素に対して求めた誤り頻度を、頻度情報700に登録してよい。なお、ここでは、形態素に対して誤り頻度を決定する例を述べているが、実施形態に係る誤り頻度の算出の対象は、形態素に限定されるものではない。例えば、別の実施形態では、誤り頻度は、単語ごと、セグメントごとなどその他の表現要素の単位に対して決定されてもよい。
図7は、実施形態に係る頻度情報700を例示する図である。頻度情報700には、例えば、表現要素と、誤り頻度とを対応づけたレコードが登録されている。例えば、頻度情報700には、表現要素「記載」に対する誤り頻度:0.33が登録されており、過去の音声認識で認識された「記載」という表現要素に対して、誤りが33%の確率で含まれていたことを表している。そして、制御部201は、例えば、以上のような、誤り頻度を、修正情報600に登録されている音声認識結果に含まれる表現要素ごとに算出して、その情報を頻度情報700に登録してよい。
なお、頻度情報700に登録される表現要素は、例えば、フィラーを含んでもよい。フィラーとは、例えば、会話の隙間を埋める「あー」、「ええと」などの発話である。フィラーは、例えば、ポーズフィラー、およびフィラーワードなどと呼ばれてもよい。フィラーは、例えば、議事録などの作成の際に記載しなくてもよいテキストであることが多く、音声認識結果の確認の際に修正で消去されることが多い。その結果、図7に示すように、フィラーには高い誤り頻度が決定される傾向があり、制御部201は、フィラーと対応する音声データの音声領域には再生速度情報400により速い再生速度を設定することができる。それにより、議事録などの作成の際に記載しなくてもよいフィラーなどが発話されている音声領域の再生速度を速く再生することができ、確認作業の効率を高めることができる。
続いて、制御部201は、例えば、頻度情報700に登録されている表現要素ごとの誤り頻度に基づいて、セグメントと対応する音声領域の再生速度を決定する。
図8は、実施形態に係る音声認識結果のセグメントと対応する音声領域の再生速度の決定を例示する図である。例えば、音声データの音声認識結果として「人が聞くことで正午を判定し、」のセグメントが出力されたとする。
この場合に、制御部201は、まず音声認識結果のセグメントを形態素解析する。図8の例では、「人が聞くことで正午を判定し、」が、「人/が/聞く/こと/で/正午/を/判定/し/、/」の形態素に分割されている。そして、制御部201は、例えば、得られた形態素に対して頻度情報700に基づいて誤り頻度を決定する。
例えば、形態素「人」と対応する誤り頻度を決定する場合、制御部201は、頻度情報700から表現要素として「人」と対応する誤り頻度:0.12を特定する。同様に、制御部201は、音声認識でセグメントとして出力されたテキストに含まれる他の表現要素(例えば、「聞く」、「正午」、および「判定」など)に対しても誤り頻度を特定してよい。図8の例では、「人」が0.12、「聞く」が0.29、「正午」が0.51、および「判定」が0.29の誤り頻度に特定されている。
続いて、制御部201は、再生速度情報400から表現要素の誤り頻度と対応する再生速度を特定する。例えば、制御部201は、表現要素「人」と対応する誤り頻度:0.12が、再生速度情報400において含まれている誤り頻度範囲0.1~0.25と対応する再生速度(倍率):1.4倍速を特定してよい。同様に、制御部201は、音声認識でセグメントとして出力されたテキストに含まれる他の表現要素(例えば、「聞く」、「正午」、および「判定」など)に対しても誤り頻度と対応する再生速度を特定してよい。図8の例では、「人」が1.4倍速、「聞く」が1.2倍速、「正午」が1.0倍速、および「判定」が1.5倍速に特定されている。
そして、制御部201は、セグメントに含まれる表現要素に対して決定された誤り頻度に基づいてセグメントに対する誤り頻度を特定してよい。例えば、制御部201は、セグメントに含まれる表現要素に対して決定された誤り頻度と対応する再生速度のうちで最も遅い再生速度と対応づけられている誤り頻度を、セグメントに対する誤り頻度として特定してよい。図8の例では、制御部201は、1.0倍速の再生速度と対応づけられている0.51の誤り頻度を、セグメントに対する誤り頻度として特定し、また、1.0倍速をセグメントと対応する音声領域の再生速度として決定してよい。
なお、上記の例では、セグメントに対する誤り頻度として、最も遅い再生速度と対応づけられている表現要素の誤り頻度を用いている。これは、例えば、作業者が音声認識結果を確認するために音声データを再生する場合、再生速度が速すぎると内容の確認が間に合わないことがあるためである。この場合、作業者は巻き戻して音声データを再度確認したり、または、再生速度を落として再生したりすることになり、確認作業の効率が低下してしまうことがある。上述のように、例えば、セグメントに含まれる複数の表現要素に対して決定された再生速度のうちで最も遅い再生速度をセグメントの再生速度として用いることで、作業者が内容の確認が容易な再生速度の範囲で再生速度を速めて音声データを再生することができる。そのため、確認作業にかかる時間を短縮することができる。従って、実施形態によれば、音声認識の確認作業の効率を向上させることができる。なお、セグメントに対する誤り頻度は、例えば、最も遅い再生速度と対応する表現要素の誤り頻度に決定することに限定されるものではなく、表現要素の誤り頻度を代表するその他の値に決定されてもよい。
また、図8の例では、制御部201が、表現要素のうちで、動詞および名詞などの一部の表現要素に対してのみ誤り頻度および再生速度を決定しているが、実施形態はこれに限定されるものではない。別の実施形態では、制御部201は、全ての表現要素など、その他の表現要素に対しても誤り頻度および再生速度の決定を行って、セグメントに対する再生速度の決定に用いてもよい。
そして、制御部201は、例えば、以上のようにして、音声認識で出力されるセグメントごとに再生速度を決定することで、確認対象となる音声データの全体にわたって再生速度を決定することができる。
図9は、実施形態に係る音声データと対応する複数のセグメントに対して決定された再生速度を含む設定情報900を例示する図である。図9の例では設定情報900には、インデックス:1~6で識別される6つのセグメントに対して決定された再生速度が示されている。そして、制御部201は、決定された再生速度で音声データを再生することで、作業者による音声認識結果の確認作業が容易な再生速度で音声データを再生することができる。一方で、実施形態によれば、確認作業が容易な再生速度の範囲を維持しつつも再生速度を速めることができ、確認作業にかかる時間を短縮することができる。従って、実施形態によれば音声データに対する音声認識結果の確認作業の効率を向上させることができる。
図10は、実施形態に係る音声データの再生速度決定処理の動作フローを例示する図である。例えば、制御部201は、音声データの再生速度決定処理の実行指示が入力されると、図10の動作フローを開始してよい。
ステップ1001(以降、ステップを“S”と記載し、例えば、S1001と表記する)において制御部201は、確認対象の音声認識結果のデータを読み出す。例えば、制御部201は、作業者から確認対象として指定された音声認識結果のデータを記憶部202から読み出してよい。
S1002において制御部201は、音声認識結果に含まれる各セグメントについて、誤り頻度に基づいて再生速度を決定する。例えば、制御部201は、図8を参照して例示したように、セグメントに含まれる各表現要素の誤り頻度を決定し、各表現要素の誤り頻度と対応する再生速度に基づいてセグメントの再生速度を設定し、設定情報900に登録してよい。
S1003において制御部201は、決定した再生速度に従って音声データを再生し、本動作フローは終了する。例えば、制御部201は、音声認識結果に含まれる各セグメントと対応する音声領域を、そのセグメントに対して決定された設定情報900の再生速度で再生してよい。
以上で述べたように、実施形態によれば、過去に実行された修正に基づく誤り頻度に応じた再生速度で、音声データを再生することができる。
例えば、再生速度情報400には、セグメントと対応する誤り頻度が0.65を超えるなど所定の頻度を超える場合に、0.46から0.65などの所定範囲の誤り頻度における再生速度よりも速い再生速度が登録されている。そのため、一例では、誤り頻度が所定の頻度を超える場合、制御部201は、セグメントと対応する音声領域の再生速度を等倍速(例えば、1.0倍速)などの第1の速度から、第1の速度よりも速い第2の速度(例えば、1.2倍速など)に設定することができる。上述のように、誤り頻度が高く、頻繁に発生する誤りは、よく見るので作業者は慣れで誤りを容易に見つけて修正することができる。そのため、再生速度を速く設定してよく、それにより、確認作業にかかる時間を短縮することができる。その結果、確認作業の効率を向上させることができる。
なお、上述の実施形態では、音声データの再生速度を決定する対象とするセグメントとして、音声認識で順次出力されるテキストの単位を用いる例を示している。しかしながら、実施形態はこれに限定されるものではない。例えば、別の実施形態では、音声認識で出力されたテキストの文、句、節などに対して再生速度が決定されてもよいし、テキストを更に分割した形態素および単語などの単位で再生速度が決定されてもよい。即ち、一例では、実施形態に係る再生速度の決定対象とするセグメントは、文、句、節、形態素および単語などの単位を含んでよい。
(変形例)
続いて、実施形態の変形例を説明する。例えば、音声データの再生速度の変動が激しすぎると、作業者が再生速度の変動についていけずに聞き取れなくなり、結果として確認作業の効率が低下してしまうことがある。そのため、実施形態の変形例では、制御部201は、セグメントに対する誤り頻度に基づいて決定された再生速度の変動が所定の閾値を超えて激しい場合に、変動の幅を小さくする制御を実行してよい。
一例では、制御部201は、等倍速(1.0倍速)の再生速度の20%を超える急激な速度変化がある場合には、速度変化が20%以下に収まるようにセグメントと対応する音声データの再生速度を変更してよい。
図11は、実施形態の変形例に係る再生速度の変更を例示する図である。図11には設定情報1100が示されており、図11の例では設定情報1100には、1から6のインデックスで識別される音声認識結果のセグメントが示されている。また、それぞれの音声認識結果のセグメントには、例えば、上述のようにセグメントに対する誤り頻度に基づいて再生速度が決定されている。
そして、制御部201は、例えば、連続する複数のセグメントにおいて設定された再生速度の差異が所定の閾値(例えば、0.2)以上で大きい場合、差異が小さくなるように連続する複数のセグメントの少なくとも1つの再生速度を調整する。
例えば、図11では、インデックス:3で識別されるセグメントの再生速度:1.0倍速は、その前後のインデックス:2またはインデックス:4で識別されるセグメントの再生速度:1.4倍速と、所定の閾値(例えば、0.2)以上の差異で速度変化している。そのため、制御部201は、インデックス:3で識別されるセグメントの1.0倍速と、その前後のインデックス:2またはインデックス:4で識別されるセグメントの1.4倍速との差が所定の閾値以内に収まるように、再生速度を変更してよい。
一例では、制御部201は、速度変化の大きい連続する2つのセグメントのうちで、遅い方のセグメントの再生速度に合わせて、速い方のセグメントの再生速度が所定の閾値以下の差異となるように変更してよい。例えば、図11では、制御部201は、インデックス3のセグメントの1.0倍速に合わせて、インデックス2のセグメントの再生速度との差異が0.2以下に収まるように、インデックス2のセグメントを1.4倍速から1.2倍速に変更してよい。また同様に、制御部201は、例えば、インデックス3のセグメントの再生速度1.0倍速に合わせて、インデックス4のセグメントの再生速度との差異が0.2以下に収まるように、インデックス4のセグメントの再生速度を1.4倍速から1.2倍速に変更してよい。
また、インデックス5のセグメントの1.0倍速については、インデックス4のセグメントの再生速度が1.4倍速から1.2倍速に変更されているため、インデックス4からインデックス5への再生速度の変化は、0.2以内に収まっている。一方で、インデックス5のセグメントの1.0倍速から、インデックス6の再生速度1.5倍速への変化は0.2を超えている。そのため、制御部201は、インデックス6のセグメントの再生速度1.5倍速を1.2倍速に変更して、再生速度の変化を0.2以内に収めるように調整してよい。
また、制御部201は、例えば、連続する3以上の所定数の複数のセグメント間での再生速度の変動が所定の閾値を超えている場合、複数のセグメント間での再生速度の変動が所定の閾値以内に収まるように再生速度を調整してもよい。
一例として制御部201は、第1のセグメントの再生速度と、第1のセグメントから2つ後の第2のセグメントの再生速度への速度変化が0.4を超えている場合、第1のセグメントから第2のセグメントへの変化が0.4以内に収まるように速度を調節してよい。例えば、図11では、インデックス1からインデックス3のセグメントへの再生速度の変化は、1.5倍速から1.0倍速へと変化しており、変化量が0.4を超えている。この場合に、制御部201は、インデックス3の遅い再生速度1.0倍速に合わせて、インデックス1の再生速度1.5倍速を1.4倍速に変更して速度変化を0.4以内に収めてよい。
また、例えば、以上のようにセグメントに対する再生速度を変更した結果、変更されたセグメントの再生速度と、その前後のセグメントの再生速度との差異が所定の閾値を超えていたとする。この場合、制御部201は、更に前後のセグメントとの再生速度の差異が所定の閾値以内に収まるように、再生速度の調整を繰り返してもよい。
以上で述べたように、連続する複数のセグメント間での再生速度の変動が所定の閾値以内に収まるように再生速度を調整することで、作業者にとって確認のし易い変動の範囲で再生速度を速めて確認にかかる作業時間を短縮することができる。
なお、以上の図11の例では、制御部201は、速度変化の大きい2つのセグメントのうちで、遅い方のセグメントの再生速度に合わせて、速い方のセグメントの再生速度が遅くなるように制御している。例えば、上述の実施形態に係る誤り頻度に基づく再生速度の制御では、作業者の確認のし易さを考慮して再生速度が決定されている。そのため、決定した速度よりも速い速度に再生速度を調節すると、作業者にとって確認が難しくなる恐れがある。遅い方のセグメントの再生速度に合わせて、速い方のセグメントの再生速度を遅くなるように制御することで、作業者の聞き取りやすさを維持しながら再生速度の変動を小さくすることができる。しかしながら、実施形態はこれに限定されるものではない。例えば、速度変化の大きい連続する2つのセグメントのうちで、前側のインデックスのセグメントの再生速度を、後側のインデックスのセグメントの再生速度に合わせて設定するなど、再生速度を速く調節して変動を小さくする制御を含んでもよい。
また更に、実施形態に係る変形例では、制御部201は、例えば、音声データの信号雑音比(SNR:signal-to-noise ratio)に基づいて、音声データの再生速度を更に制御してもよい。例えば、音声データの信号雑音比が低い場合、音声認識の精度が低下する傾向がある。また、音声データの信号雑音比が低い場合、例えば、音声が聞き取りにくくなる傾向がある。そのため、変形例では制御部201は、例えば、音声データの信号雑音比が所定の比率以下で小さい場合には、再生速度が遅くなるように制御してよい。
一例では、制御部201は、信号雑音比が所定の比率以下で小さい音声区間では、等倍速(1.0倍速)の再生速度の10%など所定値だけ再生速度を更に低下させてよい。別の実施形態では制御部201は、信号雑音比が所定の比率以下で小さい音声区間の再生速度を0.9倍速など一律の遅い速度に設定してもよい。この場合、一律の遅い速度は、例えば、再生速度情報400に登録されている誤り頻度に基づく再生速度の決定で用いられる再生速度よりも遅い速度に設定されていてよい。
このように信号雑音比が低い音声区間では更に再生速度を低下させることで、信号雑音比が低い場合にも、作業者が確認し易い速度で音声データを再生することができる。
また更に、実施形態に係る変形例では、音声データと対応する資料がある場合に、その資料の内容に基づいて、再生速度を制御してもよい。例えば、会議では議題に沿って話し合いが行われることがあり、議題についてのテキストデータを含む資料が存在することがある。そして、音声データにおける音声認識結果のセグメントが、資料に記載されている単語およびフレーズなどの文字列を含む場合、その音声認識結果は正しい可能性が高いと推定することができる。この場合、確認作業は正しい認識結果の確認となる可能性が高く、一例では、制御部201は、その音声認識結果のセグメントと対応する音声領域の再生速度を速めることができる。そのため、実施形態に係る変形例では制御部201は、音声認識結果のセグメントが、音声データと対応する資料に含まれる文字列を所定の条件を満たして含む場合に、そのセグメントと対応する音声領域の再生速度が速くなるように制御してよい。
例えば、制御部201は、音声認識結果のセグメントが、資料に記載されている単語およびフレーズなどを所定の条件を満たして含む場合、そのセグメントの再生速度を更に、等倍速(1.0倍速)の再生速度の10%など所定値だけ増加させてよい。別の実施形態では制御部201は、資料に含まれる文字列を所定の条件を満たして含むセグメントの再生速度を1.6倍速など一律の速い速度に設定してもよい。この場合、一律の速い速度は、例えば、再生速度情報400に登録されている誤り頻度に基づく再生速度の決定で用いられる再生速度よりも速い速度に設定されていてもよい。
このように音声認識結果のセグメントが資料に含まれる文字列を所定の条件を満たして含む場合に更に再生速度を増加させることで、音声認識結果が正しい可能性の高い音声領域での再生速度を増加させて、確認作業にかかる時間を短縮することが可能である。
なお、音声認識結果のセグメントが資料に含まれる文字列を所定の条件を満たして含むとは、例えば、セグメントに含まれる名詞および動詞などの単語がすべて、または所定の割合以上で、資料に記載されている単語と一致する場合であってよい。また、別の例では、資料に含まれるフレーズが、セグメントの文字列とすべて、または所定の割合以上で一致する場合であってよい。
図12は、実施形態の変形例に係る音声データの再生速度決定処理の動作フローを例示する図である。例えば、制御部201は、音声データの再生速度決定処理の実行指示が入力されると、図12の動作フローを開始してよい。
S1201からS1202の処理は、例えば、S1001からS1002の処理と対応していてよく、制御部201は、S1001からS1002の処理と同様の処理を実行してもよい。
続く、S1203において制御部201は、音声認識結果に含まれる各セグメントに対して決定した音声の再生速度に基づいて、連続するセグメントにおいて再生速度が大きく変動する領域があるか否かを判定する。一例では、制御部201は、連続する2つのセグメントに対する再生速度を比較し、変動が所定の閾値以内に収まっている場合、S1203においてNOと判定してよく、フローはS1205に進む。一方、制御部201は、連続する2つのセグメントの再生速度を比較し、変動が所定の閾値を超えているセグメントがある場合、S1203においてYESと判定してよく、フローはS1204に進む。
S1204において制御部201は、大きい変動が検出されたセグメントと対応する音声領域の再生速度を、再生速度の変動が小さくなるように調節してよい。なお、再生速度の調節の更なる例については、図11を参照して上述している。
S1205において制御部201は、音声データに、信号雑音比が所定の比率以下となる低い音声領域があるか否かを判定する。例えば、音声データに、信号雑音比が所定の比率以下となる低い領域が無い場合(S1205がNO)、フローはS1207へ進む。一方、音声データに、信号雑音比が所定の比率以下となる低い領域がある場合(S1205がYES)、フローはS1206に進む。
S1206において制御部201は、例えば、音声データにおいて信号雑音比の低い領域の再生速度を、現在の設定よりも遅い速度に設定する。
S1207において制御部201は、例えば、音声データと対応する資料データが記憶部202にあるか否かを判定する。例えば、作業者は、図12の動作フローの実行の際に、音声データと対応する資料データを指定していてよく、この場合、制御部201は、S1207において資料データの指定があればYESと判定し、資料データの指定がなければNOと判定してよい。別の実施形態では、資料データがある場合には、予め音声データと資料データとが関連づけられて記憶部202に保存されていてもよい。S1207において音声データと対応する資料データが無い場合(S1207がNO)、フローはS1211に進む。一方、S1207において音声データと対応する資料データがある場合(S1207がYES)、フローはS1208に進む。
S1208において制御部201は、資料データから文字列を抽出する。例えば、制御部201は、資料データに含まれるテキストデータから単語およびフレーズなどの文字列を抽出してよい。そして、S1209において制御部201は、音声認識結果のセグメントに、資料データから抽出された文字列を所定の条件を満たして含むセグメントがあるか否かを判定する。例えば、音声認識結果のセグメントに、資料データから抽出された文字列を所定の条件を満たして含むセグメントが無い場合(S1209がNO)、フローはS1211に進む。一方、音声認識結果のセグメントに、資料データから抽出された文字列を所定の条件を満たして含むセグメントがある場合(S1209がYES)、フローはS1210に進む。
S1210において制御部201は、例えば、資料データから抽出された文字列を所定の条件を満たして含むセグメントの再生速度を現在の設定よりも速い速度に設定する。
S1211において制御部201は、例えば、セグメントと対応する音声領域が、そのセグメントに対して決定された再生速度で再生されるように音声データを再生し、本動作フローは終了する。
以上で述べたように、実施形態に係る変形例では、再生速度の変動が大きい場合に、再生速度の変動が小さくなるように調節を行っている。そのため、実施形態に係る変形例によれば、上述の実施形態が奏する効果に加えて、音声データの再生速度の変動が、作業者にとって聞き取り易い範囲に収まるように音声データを再生することができる効果を有する。
また、実施形態に係る変形例では、制御部201は、例えば、信号雑音比の低い音声領域では再生速度を遅くする変更を行っている。それにより、音声データの信号雑音比の低い領域でも作業者にとって確認し易い速度で、音声データを再生することが可能となる。
また、実施形態に係る変形例では、制御部201は、例えば、セグメントの文字列が、資料に含まれる文字列を所定の条件を満たして含む場合、そのセグメントと対応する音声領域では再生速度を速くする変更を行っている。それにより、音声認識結果が正しいことが推定される音声領域で再生速度を速めて、音声認識結果の確認にかかる時間を削減することができる。
なお、上述の実施形態では、誤り頻度が所定以下で低く、誤りがほとんどないことが推定されるセグメントに対しては、再生速度が速くなるように再生速度情報400を設定している(例えば、誤り頻度範囲0.0~0.25の範囲など)。この様にほとんど誤りが無い場合には、作業者は音声データの確認が容易であるため、速い再生速度に設定することで、時間をかけずに音声認識結果を確認することが可能となる。しかしながら、実施形態はこれに限定されるものではない。例えば、別の実施形態では、誤り頻度が所定以下で低く、誤りがほとんどないことが推定されるセグメントに対しては、音声認識の信頼度に基づいて再生速度を制御してもよい。なお、例えば、音声認識の信頼度としては、非特許文献1に記載されるような尤度算出のアルゴリズムを用いて得られた尤度を利用することができる。
以上において、実施形態を例示したが、実施形態はこれに限定されるものではない。例えば、上述の動作フローは例示であり、実施形態はこれに限定されるものではない。可能な場合には、動作フローは、処理の順番を変更して実行されてもよく、別に更なる処理を含んでもよく、または、一部の処理が省略されてもよい。例えば、図12の動作フローにおいて、S1203~S1204の処理、S1205~S1206の処理、およびS1207~S1210の処理の少なくとも1つの処理は、実行されなくてもよい。
なお、上述の実施形態において、例えば、S1002およびS1202の処理では、制御部201は、設定部211として動作する。また、例えば、S1003およびS1211の処理では、制御部201は、再生部212として動作する。
図13は、実施形態に係る情報処理装置101を実現するためのコンピュータ1300のハードウェア構成を例示する図である。図13の情報処理装置101を実現するためのハードウェア構成は、例えば、プロセッサ1301、メモリ1302、記憶装置1303、読取装置1304、通信インタフェース1306、および入出力インタフェース1307を備える。なお、プロセッサ1301、メモリ1302、記憶装置1303、読取装置1304、通信インタフェース1306、入出力インタフェース1307は、例えば、バス1308を介して互いに接続されている。
プロセッサ1301は、例えば、シングルプロセッサであっても、マルチプロセッサやマルチコアであってもよい。プロセッサ1301は、メモリ1302を利用して例えば上述の動作フローの手順を記述したプログラムを実行することにより、上述した各部の一部または全部の機能を提供する。例えば、情報処理装置101のプロセッサ1301は、記憶装置1303に格納されているプログラムを読み出して実行することで、設定部211、および再生部212として動作する。
メモリ1302は、例えば半導体メモリであり、RAM領域およびROM領域を含んでよい。記憶装置1303は、例えばハードディスク、フラッシュメモリ等の半導体メモリ、または外部記憶装置である。なお、RAMは、Random Access Memoryの略称である。また、ROMは、Read Only Memoryの略称である。
読取装置1304は、プロセッサ1301の指示に従って着脱可能記憶媒体1305にアクセスする。着脱可能記憶媒体1305は、例えば、半導体デバイス、磁気的作用により情報が入出力される媒体、光学的作用により情報が入出力される媒体などにより実現される。なお、半導体デバイスは、例えば、USBメモリである。また、磁気的作用により情報が入出力される媒体は、例えば、磁気ディスクである。光学的作用により情報が入出力される媒体は、例えば、CD-ROM、DVD、Blu-ray Disc等(Blu-rayは登録商標)である。CDは、Compact Discの略称である。DVDは、Digital Versatile Diskの略称である。
上述の記憶部202は、例えばメモリ1302、記憶装置1303、および着脱可能記憶媒体1305を含んでよい。例えば、情報処理装置101の記憶装置1303には、再生速度情報400、出力結果500、修正情報600、頻度情報700、設定情報900,1100が格納されている。なお、音声データは、一例では、着脱可能記憶媒体1305を介して情報処理装置101に提供されてよい。
通信インタフェース1306は、プロセッサ1301の指示に従って、他の装置と通信する。通信インタフェース1306は、上述の通信部203の一例である。情報処理装置101は、例えば、通信インタフェース1306を介して音声録音装置102などの他の装置から音声データを取得してよい。なお、別の実施形態では通信インタフェース1306はコンピュータ1300に含まれていなくてもよい。
入出力インタフェース1307は、例えば、入力装置および出力装置との間のインタフェースである。入力装置は、例えばユーザからの指示を受け付けるキーボード、マウス、タッチパネルなどのデバイスである。出力装置は、例えばディスプレーなどの表示装置、およびスピーカなどの音声装置である。
実施形態に係る各プログラムは、例えば、下記の形態で情報処理装置101に提供される。
(1)記憶装置1303に予めインストールされている。
(2)着脱可能記憶媒体1305により提供される。
(3)プログラムサーバなどのサーバから提供される。
なお、図13を参照して述べた情報処理装置101を実現するためのコンピュータ1300のハードウェア構成は、例示であり、実施形態はこれに限定されるものではない。例えば、上述の構成の一部が、削除されてもよく、また、新たな構成が追加されてもよい。また、別の実施形態では、例えば、上述の制御部201の一部または全部の機能がFPGA、SoC、ASIC、およびPLDなどによるハードウェアとして実装されてもよい。なお、FPGAは、Field Programmable Gate Arrayの略称である。SoCは、System-on-a-chipの略称である。ASICは、Application Specific Integrated Circuitの略称である。PLDは、Programmable Logic Deviceの略称である。
以上において、いくつかの実施形態が説明される。しかしながら、実施形態は上記の実施形態に限定されるものではなく、上述の実施形態の各種変形形態および代替形態を包含するものとして理解されるべきである。例えば、各種実施形態は、その趣旨および範囲を逸脱しない範囲で構成要素を変形して具体化できることが理解されよう。また、前述した実施形態に開示されている複数の構成要素を適宜組み合わせることにより、種々の実施形態が実施され得ることが理解されよう。更には、実施形態に示される全構成要素からいくつかの構成要素を削除して、または実施形態に示される構成要素にいくつかの構成要素を追加して種々の実施形態が実施され得ることが当業者には理解されよう。
100 音声認識システム
101 情報処理装置
102 音声録音装置
201 制御部
202 記憶部
203 通信部
211 設定部
212 再生部
400 再生速度情報
500 出力結果
600 修正情報
700 頻度情報
900 設定情報
1100 設定情報
1300 コンピュータ
1301 プロセッサ
1302 メモリ
1303 記憶装置
1304 読取装置
1305 着脱可能記憶媒体
1306 通信インタフェース
1307 入出力インタフェース
1308 バス

Claims (5)

  1. 音声データに音声認識を実行して出力されるテキストのセグメントに含まれる表現要素に対する過去の音声認識の結果に行われた修正に基づき特定される誤り頻度が、所定の頻度を超える場合、前記セグメントと対応する音声領域の再生速度の設定を、第1の速度から前記第1の速度よりも速い第2の速度に変更し、
    前記変更する処理で設定された再生速度に従って前記音声データを再生する、
    処理を、コンピュータに実行させる制御プログラム。
  2. 前記変更する処理は、更に、前記音声認識で順次出力される認識結果の複数のセグメントにおいて、連続するセグメントに設定された再生速度の差異が所定の閾値を超えている場合、前記差異が小さくなるように前記連続するセグメントの少なくとも1つの再生速度を調整する、請求項1に記載の制御プログラム。
  3. 前記変更する処理は、更に、前記音声データの或る音声領域の信号雑音比が所定の比率以下である場合、前記或る音声領域の再生速度が遅くなるように変更する、請求項1または2に記載の制御プログラム。
  4. 音声データに音声認識を実行して出力されるテキストのセグメントに含まれる表現要素に対する過去の音声認識の結果に行われた修正に基づき特定される誤り頻度が、所定の頻度を超える場合、前記セグメントと対応する音声領域の再生速度の設定を、第1の速度から前記第1の速度よりも速い第2の速度に変更し、
    前記変更する処理で設定された再生速度に従って前記音声データを再生する、
    ことを含む、コンピュータが実行する制御方法。
  5. 音声データに音声認識を実行して出力されるテキストのセグメントに含まれる表現要素に対する過去の音声認識の結果に行われた修正に基づき特定される誤り頻度が、所定の頻度を超える場合、前記セグメントと対応する音声領域の再生速度の設定を、第1の速度から前記第1の速度よりも速い第2の速度に変更する設定部と、
    前記設定部が設定した再生速度に従って前記音声データを再生する再生部と、
    を含む、情報処理装置。
JP2021028033A 2021-02-25 2021-02-25 制御プログラム、制御方法、および情報処理装置 Pending JP2022129403A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021028033A JP2022129403A (ja) 2021-02-25 2021-02-25 制御プログラム、制御方法、および情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021028033A JP2022129403A (ja) 2021-02-25 2021-02-25 制御プログラム、制御方法、および情報処理装置

Publications (1)

Publication Number Publication Date
JP2022129403A true JP2022129403A (ja) 2022-09-06

Family

ID=83151249

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021028033A Pending JP2022129403A (ja) 2021-02-25 2021-02-25 制御プログラム、制御方法、および情報処理装置

Country Status (1)

Country Link
JP (1) JP2022129403A (ja)

Similar Documents

Publication Publication Date Title
US10347238B2 (en) Text-based insertion and replacement in audio narration
JP5284785B2 (ja) コンテンツベースの音声再生強調
JP4145796B2 (ja) テキストファイルのディクテーションを筆記するための及びテキストを修正するための方法及びシステム
US8150687B2 (en) Recognizing speech, and processing data
US20080201149A1 (en) Variable voice rate apparatus and variable voice rate method
JP2001282277A (ja) 音声情報処理装置及びその方法と記憶媒体
JP5296029B2 (ja) 文章提示装置、文章提示方法及びプログラム
JP2022129403A (ja) 制御プログラム、制御方法、および情報処理装置
JP5293478B2 (ja) 音声認識用の閾値管理プログラム、音声認識用の閾値管理方法、音声認識装置
JP4532862B2 (ja) 音声合成方法、音声合成装置および音声合成プログラム
JP5852550B2 (ja) 音響モデル生成装置とその方法とプログラム
JP4648878B2 (ja) 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体
JP5294700B2 (ja) 音声認識及び合成システム、プログラム及び方法
JP2000250401A (ja) 言語学習方法、言語学習装置およびプログラムを記録した媒体
KR102076565B1 (ko) 화자 식별 노이즈의 삽입을 통해 발화자의 식별이 가능하게 하는 음성 처리 장치 및 그 동작 방법
JP6006674B2 (ja) 音響モデル選択装置とその方法とプログラム
CN112489646A (zh) 语音识别方法及其装置
JPH07272447A (ja) 音声データ編集システム
JP7345702B2 (ja) 騒音抑圧装置、騒音抑圧方法、及び騒音抑圧プログラム
US20230215419A1 (en) Method and apparatus for constructing domain-specific speech recognition model and end-to-end speech recognizer using the same
JP4635384B2 (ja) 音声合成システム、音声合成方法および音声合成用プログラム
US11830481B2 (en) Context-aware prosody correction of edited speech
JP7458720B2 (ja) 情報処理装置、情報処理方法、及びプログラム
KR102417806B1 (ko) 문장에 대한 띄어읽기 처리를 수행하는 음성 합성 장치 및 그 동작 방법
JP2007256815A (ja) 音声再生装置、音声再生方法、音声再生プログラム