JP2012008375A - 音声記録装置、そのデータ処理方法、およびプログラム - Google Patents

音声記録装置、そのデータ処理方法、およびプログラム Download PDF

Info

Publication number
JP2012008375A
JP2012008375A JP2010144851A JP2010144851A JP2012008375A JP 2012008375 A JP2012008375 A JP 2012008375A JP 2010144851 A JP2010144851 A JP 2010144851A JP 2010144851 A JP2010144851 A JP 2010144851A JP 2012008375 A JP2012008375 A JP 2012008375A
Authority
JP
Japan
Prior art keywords
voice
audio
editing
signal
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010144851A
Other languages
English (en)
Inventor
Hitoshi Yamamoto
山本  仁
Kentaro Nagatomo
健太郎 長友
Takafumi Koshinaka
孝文 越仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010144851A priority Critical patent/JP2012008375A/ja
Publication of JP2012008375A publication Critical patent/JP2012008375A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】音声信号を入力し、その内容情報を取得する際に、あらかじめ記録する文を作成するという使用者にかかる負担が大きいこと、を解決することが可能な音声記録装置、そのデータ処理方法、およびプログラムを提供する。
【解決手段】音声記録装置100は、音声信号を記憶する音声記憶部104と、編集指示に従って、音声記憶部104に記憶された音声信号を編集する音声編集部110と、音声編集部110により編集された音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力する音声認識部112と、を備える。
【選択図】図1

Description

本発明は、音声記録装置、そのデータ処理方法、およびプログラムに関し、特に、音声信号を記録し、音声信号の内容情報を取得する音声記録装置、そのデータ処理方法、およびプログラムに関する。
使用者が発声した音声信号を記録する音声記録装置が知られている。この種の音声記録装置の一つとして、音声信号が表す語句を認識する音声認識処理によって得られる音声認識結果を、音声信号と共に記録する音声記録装置が知られている。このような音声記録装置は、記録された音声信号の内容(音声認識結果)をテキストデータの形態でも使用者に提供できるため、使用者が内容の把握がしやすいという利点を有する。
このような機能を有する音声認識処理装置の一例が特許文献1に記載されている。特許文献1に記載の音声認識処理装置は、音声データが記録された記録媒体から音声データを読み込み、音声認識してテキストデータに変換し、上記テキストデータを表示装置に表示するように構成されている。
また、特許文献2に記載された音声編集装置は、編集対象となる音声の波形を表示するとともに、そこに含まれる各音声部分に対応付けて、認識結果表示枠をそれぞれ表示し、その中に各音声部分に対応する音声認識の結果の全部または一部を表示するように構成されている。
特開平10−340179号公報 特開2002−297188号公報
しかしながら、上述した音声記録装置においては、使用者が音声信号を入力する際に、記録する内容を整理した上で、発話する文を作成してから発声する必要がある。これは、一般的な音声認識処理では、一定の音声認識精度を得るために、文法モデルや単語連接モデルのような文発話を前提とした言語モデルを用いるためである。このため、使用者が記録する際にかかる負担が大きいという問題があった。
使用者が記録する文を作成せずに(内容を整理せずに)発声する場合として、たとえば、使用者が記録したい内容を表す語句を思いつくままに発声する場合がある。このとき、記録された一連の音声は、一文ではない語句(文の断片に相当)が連続している状態となっていることがある。よって、たとえば、記録した使用者や他の使用者があとでこれらの音声を再生しても、十分に内容を把握できないおそれがある。また、文発話を前提とする言語モデルを用いる音声認識処理では、このような音声を認識するのは難しいため、たとえば、記録した使用者や他の使用者があとでこれらの音声を認識結果であるテキストデータとして参照しても、十分に内容を把握できないおそれがある。
本発明の目的は、上述した課題である、音声信号を入力し、その内容情報を取得する際に、あらかじめ記録する文を作成するという使用者にかかる負担が大きいこと、を解決することが可能な音声記録装置、そのデータ処理方法、およびプログラムを提供することにある。
本発明によれば、音声信号を入力し、その内容情報を取得する際に、あらかじめ記録する文を作成するという使用者にかかる負担が大きいこと、を解決することが可能な音声記録装置、そのデータ処理方法、およびプログラムが提供される。
本発明の音声記録装置は、
音声信号を記憶する音声記憶手段と、
編集指示に従って、前記音声記憶手段に記憶された前記音声信号を編集する音声編集手段と、
前記音声編集手段により編集された前記音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力する音声認識手段と、を備える。
本発明の音声記録装置のデータ処理方法は、
前記音声記録装置が、音声信号を記憶する音声記憶装置を備え、
前記音声記録装置が、
編集指示に従って、前記音声記憶装置に記憶された前記音声信号を編集し、
編集された前記音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力する。
本発明のコンピュータプログラムは、
音声記録装置を実現するためのコンピュータプログラムであって、
コンピュータは、音声信号を記憶する音声記憶装置を備え、
コンピュータに、
編集指示に従って、前記音声記憶装置に記憶された前記音声信号を編集する手順、
前記音声信号を編集する手順により編集された前記音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力する手順、を実行させるためのコンピュータプログラムである。
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
また、本発明の各種の構成要素は、必ずしも個々に独立した存在である必要はなく、複数の構成要素が一個の部材として形成されていること、一つの構成要素が複数の部材で形成されていること、ある構成要素が他の構成要素の一部であること、ある構成要素の一部と他の構成要素の一部とが重複していること、等でもよい。
また、本発明のデータ処理方法およびコンピュータプログラムには複数の手順を順番に記載してあるが、その記載の順番は複数の手順を実行する順番を限定するものではない。このため、本発明のデータ処理方法およびコンピュータプログラムを実施するときには、その複数の手順の順番は内容的に支障しない範囲で変更することができる。
さらに、本発明のデータ処理方法およびコンピュータプログラムの複数の手順は個々に相違するタイミングで実行されることに限定されない。このため、ある手順の実行中に他の手順が発生すること、ある手順の実行タイミングと他の手順の実行タイミングとの一部ないし全部が重複していること、等でもよい。
本発明によれば、使用者が音声信号を入力し、その内容情報を取得する際、使用者にかかる負担を軽減することができる音声記録装置、そのデータ処理方法、およびプログラムが提供される。
本発明の実施の形態に係る音声記録装置の構成を示す機能ブロック図である。 本実施形態の音声記録装置における操作画面の例を示す図である。 本実施形態の音声記録装置における編集操作を説明するための図である。 本実施形態の音声記録装置における操作画面における編集操作の具体例を示す図である。 本発明の実施の形態に係る音声記録装置の動作の一例を示すフローチャートである。 本発明の実施の形態に係る音声記録装置の構成を示す機能ブロック図である。 本発明の実施の形態に係る音声記録装置の構成を示す機能ブロック図である。 本実施形態の音声記録装置における音声認識条件の指定方法の例を説明するための図である。 本発明の実施の形態に係る音声記録装置の動作の一例を示すフローチャートである。 本発明の実施の形態に係る音声記録装置の構成を示す機能ブロック図である。 本発明の実施の形態に係る音声記録装置の構成を示す機能ブロック図である。
以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。
(第1の実施の形態)
図1は、本発明の実施の形態に係る音声記録装置100の構成を示す機能ブロック図である。
本発明は、音声を記録するとともに、その音声の内容を取得する音声記録装置等に適用可能である。特に、画面上での操作機能を有する携帯端末などにおける、メモアプリケーションや電子メールアプリケーションなど、音声の記録処理を伴うアプリケーションに適用可能である。
本実施形態の音声記録装置100は、音声信号を記憶する音声記憶部104と、編集指示に従って、音声記憶部104に記憶された音声信号を編集する音声編集部110と、音声編集部110により編集された音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力する音声認識部112と、を備える。
さらに、本実施形態の音声記録装置100は、音声記憶部104に記憶された音声信号を使用者に視覚的に提示する提示部108と、提示部108により提示された音声信号の中から、使用者による編集対象の指定、および編集対象として指定された音声信号に対する編集操作の編集指示を受け付ける操作受付部106と、を備え、音声編集部110は、操作受付部106が受け付けた編集指示に従って、音声記憶部104に記憶された音声信号を編集する。
具体的には、図1に示すように、音声記録装置100は、音声入力部102と、音声記憶部104と、操作受付部106と、提示部108と、音声編集部110と、音声認識部112と、音声認識結果記憶部114と、を備える。
本実施形態の音声記録装置100は、たとえば、図示しない中央処理装置(Central Processing Unit:CPU)やメモリ、ハードディスク駆動装置(Hard Disk Drive:HDD)、および通信装置を備え、キーボードやマウス等の入力装置やディスプレイやプリンタ等の出力装置と接続されるサーバコンピュータやパーソナルコンピュータ、またはそれらに相当する装置により実現することができる。そして、CPUが、ハードディスクに記憶されるプログラムをメモリに読み出して実行することにより、上記各ユニット(音声入力部102、操作受付部106、提示部108、音声編集部110、および音声認識部112)の各機能を実現することができる。または、各ユニットは、論理回路等のハードウェアにより実現されていてもよい。また、音声記憶部104、および音声認識結果記憶部114は、たとえば、音声記録装置100が備える記憶装置によって実現される。
すなわち、音声記録装置100の各構成要素は、任意のコンピュータのCPU、メモリ、メモリにロードされた本図の構成要素を実現するプログラム、そのプログラムを格納するハードディスクなどの記憶ユニット、ネットワーク接続用インタフェースを中心にハードウェアとソフトウェアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。以下説明する各図は、ハードウェア単位の構成ではなく、機能単位のブロックを示している。
なお、以下の各図において、本発明の本質に関わらない部分の構成については省略してあり、図示されていない。
本実施形態のコンピュータプログラムは、音声記録装置100を実現させるためのコンピュータに、編集指示に従って、音声記憶部104に記憶された音声信号を編集する手順、音声信号を編集する手順により編集された音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力する手順、を実行させるように記述されている。
さらに、本実施形態のコンピュータプログラムは、音声記憶部104に記憶された音声信号を使用者に視覚的に提示する手順、提示された音声信号の中から、使用者による編集対象の指定、および編集対象として指定された音声信号に対する編集操作の編集指示を受け付ける手順、受け付けた編集指示に従って、音声記憶部104に記憶された音声信号を編集する手順、を実行させるように記述されている。
本実施形態のコンピュータプログラムは、コンピュータで読み取り可能な記憶媒体に記録されてもよい。記録媒体は特に限定されず、様々な形態のものが考えられる。また、プログラムは、記録媒体からコンピュータのメモリにロードされてもよいし、ネットワークを通じてコンピュータにダウンロードされ、メモリにロードされてもよい。
本実施形態において、上述した出力装置は、さらに、たとえば、図示しない画面を表示するディスプレイ(タッチパネルを含む。)、および音声を出力するスピーカ等を含む。出力装置は、CPUにより出力された画像信号をディスプレイの画面に表示させる。また、出力装置は、CPUにより出力された音声信号をスピーカに音として出力させる。また、出力装置は、図示しないデータ記憶媒体や、インターネットやLAN(Local Area Network)などのネットワークとのインタフェース機器であってもよい。そのような場合には、出力装置は、データ記憶媒体やネットワークなどを介して、音声信号および音声認識結果情報を出力する。
本実施形態において、上述した入力装置は、さらに、上述した出力装置のディスプレイ上に操作画面を表示するとともに、使用者の操作を受け付けるタッチパネル、および音声を入力するマイクロホン等を含む。入力装置は、操作画面を介して、使用者の操作指示を受け付け、操作指示に対応する操作信号を入力する。たとえば、操作信号は、操作画面上での使用者の指の位置と動きの情報を示す。また、入力装置は、マイクロホンを介して、マイクロホンの周囲、すなわち、音声記録装置100の外部の音声を集音して音声信号を入力する。また、入力装置は、データ記憶媒体やネットワークとのインタフェース機器であってもよい。そのような場合には、データ記憶媒体やネットワークなどを介して、音声信号を入力する。
なお、本実施形態では、音声記録装置100は、外部から入力装置を介して操作信号および音声信号を入力し、入力された操作信号に対応する操作指示に従って編集された音声信号と、それに対応する音声認識結果とを出力装置を介して出力するように構成されているものとする。
音声入力部102は、外部から入力装置(図示せず)を介して音声信号を受け取り、その音声信号を音声記憶部104に出力する。音声入力部102は、連続する音声信号を、ひとつの音声データとして出力する。たとえば、音量が所定値より小さい信号(無音)が一定時間継続した場合に、その区間を音声信号の区切りとして、その区間の前後を異なる音声データとして記録するようにしてもよい。このように、音声入力部102は、一般的な自動音声検出方式によって音声信号を分割してもよい。あるいは、音声入力部102は、たとえば、使用者がスイッチを入れている間の音声信号をひとつの音声データとして記録するというように、使用者の指示により音声データの開始および終了を定めるようにしてもよい。この使用者の指示は、後述する操作受付部106に操作信号として入力され、音声データの開始と終了を示す指示として受け付ける。操作受付部106が、この音声データの開始と終了の指示を音声入力部102に通知することで、音声入力部102から音声記憶部104への音声信号の出力を制御することができる。
音声記憶部104は、処理対象の音声信号を記憶する。音声入力部102より音声信号が入力されるたびに、その音声信号を記憶する。その際、音声記憶部104は、音声信号の他に、音声の入力された時刻や発話した話者などの情報をあわせて記憶してもよい。時刻情報は、音声記録装置100内部の時計(不図示)から取得してもよいし、外部から時刻情報を受信する時刻受信部(不図示)を備えてもよい。また、話者の情報は、入力装置を介して使用者などが入力操作した情報を受け付ける受付部(不図示)をさらに備えてもよい。また、音声編集部110より編集された音声信号が入力された場合は、その音声信号を記憶する。その際、音声記憶部104は、編集前の音声信号と、その対応情報もあわせて記憶してもよい。
音声認識部112は、音声記憶部104に記憶された音声信号を入力し、音声認識処理を行い、その音声信号に対応する音声認識結果を含む認識結果情報を音声認識結果記憶部114へ出力する。本実施形態では、音声認識部112は、音声認識結果として、音声信号が表す語句を示すテキストデータを音声認識結果記憶部114に出力する。音声認識部112から音声認識結果が出力されたとき、音声認識部112は、提示部108に音声認識結果そのものを出力してもよいし、あるいは、音声認識結果記憶部114に音声認識結果が記憶されたことを提示部108に通知し、提示部108が必要に応じて音声認識結果記憶部114を参照してもよい。
なお、後述するように、本実施形態において、音声認識部112は、音声編集部110による編集がなされる前の音声記憶部104に記憶された音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力し、提示部108は、編集がなされる前の音声信号が表す語句を示す認識結果情報をさらに提示する。そして、音声編集部110により音声信号が編集されるたびに、提示部108は、編集後の認識結果を更新して表示する。
音声認識部112は、音声認識処理において、入力された音声信号に対して、たとえば、音声認識を行うためのモデル(たとえば、音響モデル、言語モデル、単語辞書等を含む)の与えるスコアに従って、音声信号に適合する単語列を探索するといった一般的な処理を行う。ここで、音声認識部112は、たとえば、音響モデルとして隠れマルコフモデルを用い、言語モデルとして単語トライグラムなどを用いるようにしてもよい。なお、音声記録装置100は、これらのモデルをあらかじめ記憶装置に記憶しているものとする。もちろん、モデルの変更や更新なども行うことができる。
音声認識部112は、音声認識結果として、たとえば、音声信号に対応する語句の候補を表現する単語列を出力する。また、例えば音声認識結果として、複数の単語列を含む単語グラフやNベスト単語列の形式で表現したものを出力するようにしてもよい。このとき、音声認識部112は、音声認識結果の各単語が、認識した音声信号のどの区間に対応するかを表す時間情報を含むように表現した情報を認識結果情報に含めて出力してもよい。
音声認識部112は、編集された音声信号の認識結果を求める際に、編集前の音声信号の音声認識結果を用いてこれを求めてもよい。たとえば、編集前の音声の認識結果である単語グラフを、言語モデルを用いてリスコアリングするという方法を用いてもよい。
音声認識結果記憶部114は、音声記憶部104に記憶されている音声について音声認識部112が出力した音声認識結果を、認識対象の音声信号と対応付けて記憶する。音声信号に対する編集が繰り返された場合、認識結果を音声編集部110から得られる編集履歴(編集時刻、編集内容等)とともに対応付けて音声認識結果記憶部114に記憶してもよい。
提示部108は、音声記憶部104または音声認識結果記憶部114を参照し、音声記憶部104に記憶されている音声信号または音声認識結果記憶部114に記憶されている音声認識結果を入力し、使用者に提示するための画面に表示する画像情報として出力装置のディスプレイに出力する。
提示部108は、音声記憶部104に記憶されている音声信号について、それぞれが異なることを示す画像情報(たとえば、後述する図2のアイコン152)を出力する。これにより、使用者が音声信号それぞれを区別できるようにする。
また、提示部108は、上述した音声信号を示す画像情報に加えて、音声認識結果記憶部114に記憶されている上述した音声信号に対応する音声認識結果を示す画像情報を出力してもよい。たとえば、音声信号を示す画像情報の一部に、音声認識結果のテキストデータ(たとえば、後述する図2の画像情報162)を加えるようにしてもよい。画像情報により画面に表示される画像は、たとえば、操作の受け付けも可能なアイコンやメニュー、操作ボタンなどである。使用者は、画面に表示されたアイコンやメニュー、操作ボタンを操作することで、編集操作の指示などを容易に行うことができる。
図2を参照して、提示部108が出力する操作画面上に表示される画像情報の例を説明する。図2(a)の画面150には3つの音声データS1〜S3を示す画像情報(アイコン152)が表示されている。この例では、音声入力部102から入力された音声が音声記憶部104に記憶されるたびに、表示される画像情報が増える。たとえば、4番目の音声データS4(不図示)が入力された場合は、3番目の音声データS3のアイコン152の下に表示すればよい。
なお、図2の例では、上から下に音声データを示すアイコンを入力順に表示しているが、下から上でもよいし、画面150の横方向に左から右に順に並べ、画面150の横幅に応じて、または所定数で折り返して下方向に順次表示してもよい。
ここで、図6に示すように、本実施形態の音声記録装置100の構成に、さらに、検知部122を設けることで、たとえば、音声入力部102から入力された音声が音声記憶部104に記憶されたことを検知し、検知されるたびに、入力された音声信号を示す画像情報を表示させることができる。
なお、検知部122による音声信号入力の検知のタイミングは、音声入力部102が音声信号を受け付けたときでもよいし、音声記憶部104に入力された音声信号が記録されたときでもよい。入力確認用のフラグなどを用いて判定してもよい。
図2(b)の画面160は、音声認識結果記憶部114に記憶されている、音声データS1〜S3に対応する音声認識結果R1〜R3を文字列で表現した画像情報162を、画面160の下部に表示した例である。
図2(c)の画面170は、音声データS1〜S3それぞれを示す画像情報(アイコン152)の横に、音声データS1〜S3それぞれに対応する音声認識結果R1〜R3の画像情報162を表示した例である。
図1に戻り、操作受付部106は、上述した提示部108として操作画面が表示される入力装置のタッチパネルを介して使用者が操作した操作指示を受け付け、操作対象の音声を示す情報と、操作内容(音声の編集方法)を示す情報とを音声編集部110に出力する。タッチパネルの操作には、使用者が指またはタッチペンなどのツールを用いてもよい。なお、タッチパネルを使用しない場合は、入力装置として、キーボード、操作ボタン、マウス、タブレットなどを用いることもできる。
本例では、使用者に画像情報を提示する出力装置としての画面が、使用者の操作指示に対応する操作信号を入力するための入力装置を兼ねることにより、使用者が、音声信号を容易に操作しうる機能を提供する。このような機能は、上述したように、一般的なタッチパネルによって実現できる。
すなわち、本実施形態において、提示部108および操作受付部106は、タッチパネルで実現することができる。提示部108は、音声信号、および、音声信号に対応する音声認識部112が出力した認識結果情報に基づいて音声信号が表す語句を表す画像を画面に表示し、操作受付部106は、画面に表示された画像を介して入力された操作信号に対応する使用者の編集対象の指定または編集操作の編集指示を受け付ける。
操作受付部106は、受け付けた操作指示に基づいて、対応する操作対象の音声を選択する操作指示を音声編集部110に通知する。たとえば、図2の画面150に表示されている音声データを示す画像情報(アイコン152)に、使用者が触れたことを検知することによって、その音声データを操作対象として選択する指示として受け付けるようにしてもよい。
また、操作受付部106は、受け付けた操作指示に基づいて、対応する操作内容を選択する操作指示を音声編集部110に通知する。たとえば、操作画面に表示されている操作内容を示す画像情報(たとえば、アイコン)に、使用者が触れたことを検知することによって、その操作内容を選択する指示として受け付けるようにしてもよい。あるいは、画面に表示されている音声データを示す画像情報を使用者が移動することを検知して、その操作内容を選択する指示として受け付けるようにしてもよい。
音声編集部110は、操作受付部106から通知された操作指示に含まれる、操作対象の音声を示す情報および操作内容を示す情報を入力し、音声記憶部104から指定された音声を取得し、指定された内容に従い編集を行い、編集後の音声を音声記憶部104に出力する。
音声編集部110で行う音声編集方法は、たとえば、音声の並べ替え(順序変更)、音声の分割、音声の挿入、音声の削除、または音声の結合(不図示)等である。
操作受付部106は、音声記憶部104に記憶された音声信号の順序を指定する編集操作の編集指示を受け付け、音声編集部110は、編集指示に従い、音声記憶部104に記憶された音声信号の順序を変更し、音声認識部112は、編集された音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力する。ここで、音声認識部112は、編集後の音声信号を一続きの音声として自動的につなげて音声認識することができる。
また、操作受付部106は、提示部108により提示された音声信号を分割、挿入、削除、または結合する編集操作の編集指示を受け付け、音声編集部110は、編集指示に従い、音声記憶部104に記憶された音声信号を分割、挿入、削除、または結合し、音声認識部112は、編集された音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力する。ここで、音声認識部112は、編集後の音声信号を一続きの音声として自動的につなげて音声認識することができる。
図3を参照して、音声編集部110で行う具体的な音声編集方法を説明する。図3において、編集方法の(A)は音声の順序の並べ替えの例であり、この例では、2番目と3番目の音声データS2とS3の順序を変更している。編集方法の(B)は音声の分割の例であり、1番目の音声データS1を2つの音声データS2とS3に分割している。編集方法の(C)は音声の挿入の例であり、1番目と2番目の音声データS1とS2の間に3番目の音声データS3を追加している。編集方法の(D)は音声の削除の例であり、2番目の音声データS2を除いている。
操作受付部106が、上述した音声編集方法を選択するために受け付ける操作指示の例を、図3を参照して説明する。編集方法の(A)の音声の並べ替えは、2番目の音声データS2のアイコン152bが選択され、それが3番目の音声データS3のアイコン152cの後ろに移動されたときに、操作受付部106が操作指示を受け付け、音声編集部110が編集を実行するようにしてもよい。あるいは、3番目の音声データS3のアイコン152cが選択され、それが1番目と2番目の音声データS1とS2のアイコン152aと152bの間に移動されたときでもよい。あるいは、2番目と3番目の音声データS2とS3のアイコン152bと152cを同時に選択して、それらを入れ替えるように移動されたときでもよい。
編集方法の(B)の音声の分割は、1番目の音声データS1のアイコン152dが選択された後に分割操作実行を示す操作ボタンなどの画像(不図示)が使用者により押されたときでよい。編集方法の(C)の音声の挿入は、1番目と2番目の音声データS1とS2のアイコン152aと152bの間をポインタや使用者の指で選択した状態で音声が入力されたときでよい。編集後の画面上には、入力させた音声データS3のアイコン152cが音声データS1とS2のアイコン152aと152bの間に挿入される。
編集方法の(D)の音声の削除は2番目の音声データS2のアイコン152bが選択され、それが操作画面から外に出るように移動されたとき、またはゴミ箱などのアイコン(不図示)上に移動されたときでもよい。編集後の画面上では、音声データS1とS3のアイコン152aと152cのみが残る。
また、図示していないが、音声の結合の場合、結合しようとする音声データのアイコンが選択され、結合先の音声データのアイコンの後ろまたは前に移動して、アイコンを互いにくっつけるように操作されたときに、操作受付部106が操作指示を受け付け、音声編集部110が編集を実行するようにしてもよい。
このように、操作受付部106および音声編集部110が、入力された音声を示す画像情報(アイコン)を画面上で操作する機能を提供することにより、使用者が記録したい音声信号を容易に作成(編集)することができる。また、音声認識部112が、編集後の音声信号を認識することにより、音声認識精度を高めることができる。たとえば、音声認識部112が、一般的な文で学習した単語連鎖モデルを言語モデルとして用いる場合、使用者が、「電池を2つ買ってくる」、「コンビニで」の順に発話した音声を入力したとする。前述の言語モデルは、このような順序で単語が連鎖する文を十分に学習していないため、正しく音声認識できないことがある。しかし、本実施形態の機能により「コンビニで」、「電池を2つ買ってくる」の順に並べ替えることで、言語モデルに適した文となり、正しく認識できるようになる。
このように、並び替えられた音声信号を一続きの音声として音声認識部112が認識することにより、より認識精度を高めることができる。すなわち、上述した音声信号の「結合」の編集操作を行わなくても、正しい順に音声信号を並び替える編集操作を行えば、音声認識部112が連続した音声として認識処理を行うことができ、正しい認識結果が得られる可能性を高めることもできる。
さらに、提示部108が、編集後の音声および音声認識結果を示す画像情報を出力装置に出力してディスプレイに画面表示させることで、使用者が記録した音声およびその内容を把握しやすくできる。
図4を参照して、本実施形態の音声記録装置100の使用例を説明する。
(1)まず、使用者は音声記録装置100に向かって、思いついた語句を発話して音声信号を入力する。ここで入力される音声信号は、文の一部となる語句を表すものである。図4(a)は、使用者が3つの語句を入力し、音声記録装置100が音声を入力された順に上から下へ並べて画面180を出力装置に表示している例である。
(2)次に、使用者は音声記録装置100において、図4(a)の画面180上で、音声の編集を行っているときの状態を画面182として図4(b)に示す。図4(b)の画面182は、1番目に入力した音声のアイコン152xを末尾に移動し(ステップA1)、3番目に入力した音声のアイコン152yを先頭に移動し(ステップA2)、先頭に移動された音声(アイコン152y)を2つに分割した後半を削除する(ステップA3)編集操作を行った場合の例を示している。
なお、編集操作を行う画面は、必ずしも一画面でなくてもよく、図4(a)の編集前の音声信号を示す画像を含む画面180と、編集後の音声信号を示す画像を含む図4(b)の画面182は、両方を並べてディスプレイ上に表示させたり、別ウインドウで切り替えて参照できるようにすることもできる。その場合は、新たな音声信号が入力された場合、図4(a)の画面180と図4(b)の画面182の両方に新たな音声信号を示す画像が追加して表示されることとなる。
これらの編集操作は上述したアイコン152を介した操作信号入力機能によって実現される。(1)の時点での音声認識結果には誤りが含まれる場合が多いが、音声入力直後であれば、使用者は発声した語句を覚えているため、音声を示す画像(アイコン152)の操作により、これらの編集操作ができる。これらの編集操作により、使用者は発話する文をあらかじめ考えなくても、記録したい内容の音声を作成できる。
また、図6の本実施形態の音声記録装置100において、使用者が音声を編集すると、検知部122が編集を検知し、音声認識部112に通知されて、音声認識部112が動作し、編集された音声に対応する語句を自動的に更新する。すなわち、音声編集部110により音声信号の編集がなされる度に、編集された音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力することができる。この構成により、使用者が編集により文の音声を作成する場合、音声認識処理の精度が向上し、音声の内容を示すテキストデータも精度良く音声認識結果記憶部114に記録できる。
なお、検知部122による音声信号の編集の検知のタイミングは、編集操作の編集指示を操作受付部106が受け付けたときでもよいし、音声記憶部104に編集された音声信号が記録されたときでもよい。編集確認用のフラグなどを用いて判定してもよい。
このように構成された本実施形態の音声記録装置100の動作について、以下に説明する。
図5は、本実施形態の音声記録装置100の動作の一例を示すフローチャートである。
まず、上述のような構成において、本実施形態の音声記録装置100によるデータ処理方法を以下に説明する。本実施形態の音声記録装置100のデータ処理方法は、音声記録装置100が、編集指示に従って、音声記憶部104に記憶された音声信号を編集し(ステップS111)、編集された音声信号を音声認識し(ステップS113)、当該音声信号が表す語句を示す認識結果情報を出力する(ステップS115)。
さらに、本実施形態の音声記録装置100のデータ処理方法は、音声記録装置100が、音声記憶部104に記憶された音声信号を使用者に視覚的に提示し(ステップS105)、提示された音声信号の中から、使用者による編集対象の指定、および編集対象として指定された音声信号に対する編集操作の編集指示を受け付け(ステップS103の操作入力)、受け付けた指示に従って、音声記憶部104に記憶された音声信号を編集する(ステップS111)。
具体的には、図5に示すように、音声記録装置100は、使用者の起動操作等により起動されると、記憶デバイス等から必要なデータを読み出し、音声入力部102、音声認識部112、提示部108、操作受付部106、および音声編集部110から参照できるように、音声記憶部104および音声認識結果記憶部114にデータを展開する等の初期化処理を行い(ステップS101)、入力装置からの通知(音声信号や操作指示信号の入力)を受け付ける状態で待機する(ステップS103)。
音声入力部102は、入力装置からの通知に応じて(ステップS103の音声入力)、音声信号を受け付けて音声記憶部104に記憶する。そして、提示部108は、音声記憶部104に新たに記憶された音声に関する情報を取得し、画面に表示する画像情報を生成して出力装置に出力する(ステップS105)。上述した図2(a)に示すように、音声データを示すアイコン152が画面150に表示される。
続いて、音声認識部112は、ステップS105で音声記憶部104に新たに記憶された音声信号を取得し、音声認識処理を行い(ステップS107)、音声認識結果記憶部114に出力する。提示部108は、音声認識結果記憶部114に新たに記憶された音声認識結果に関する情報を取得し、画面に表示する画像情報を生成して出力装置に出力する(ステップS109)。
一方、操作受付部106は、入力装置からの通知に応じて、すなわち、操作信号が入力されたとき(ステップS103の操作入力)、操作信号に対応する操作指示を受け付け、受け付けた操作指示に従い、編集する対象の音声および処理方法を含む音声編集情報を音声編集部110に出力する。音声編集部110は、入力された音声編集情報にしたがって、音声記憶部104より処理対象の音声を取得し、指定された内容に従い編集を施した音声を音声記憶部104に記憶させる(ステップS111)。このとき、編集前の音声信号と、編集後の音声信号との対応情報もあわせて音声記憶部104に記憶してもよいし、編集前の音声信号に上書きして記憶してもよい。この編集前後の音声信号の記憶方法(編集前の音声信号を残すか上書きするか等)は、予め装置として決めておいてもよいし、使用者に選択させてもよいし、編集の都度、選択できるようにしてもよい。
続いて、音声認識部112は、ステップS111で音声記憶部104に新たに記憶された編集後の音声を取得し、音声認識処理を行い、音声認識結果記憶部114に出力する(ステップS113)。そして、提示部108は、ステップS111で音声認識結果記憶部114に新たに記憶された編集後の音声に対応する音声認識結果に関する情報を取得し、画面に表示する画像情報を生成して出力装置に出力する(ステップS115)。ステップS109またはステップS115の後、ステップS103に戻る。
なお、音声記録装置100は、終了信号が入力されることにより(ステップS103の終了)、一連の処理を終了する。終了信号は、たとえば、操作受付部106が、使用者の操作による終了指示を受け付けたときに出力してもよい。または、一定時間以上、音声入力部102が音声信号の入力を受け付けなかった場合に、自動的に出力してもよい。あるいは、音声記録装置100が、エラー時などに強制的に処理を終了した場合に出力してもよく、様々な状況が考えられる。
以上、説明したように、本発明の実施形態に係る音声記録装置100によれば、視覚的に提示された音声信号を編集対象として選び、操作でき、かつ、使用者によって編集された音声信号を音声認識することができるので、たとえ発話者が発話内容を意識せずに発話したとしても、認識精度の低下を防ぐことができる。
音声記録装置100は、使用者が音声を入力する際に、入力した音声信号を編集するための操作信号の入力装置を提供し、音声信号が編集されるたびにその音声信号の音声認識処理を行い、その認識結果を音声と併せて提示するようにする。
ここで、図6の検知部122が、たとえば、操作受付部106が操作を受け付けたことを検知し、検知されるたびに、編集処理を行うとともに、音声認識処理を行うものとする。
これにより、音声記録装置100は、記録された一連の音声が、一文ではない語句(文の断片に相当)が連続している状態であっても、使用者がそれらの音声を編集することにより、音声編集機能を有さない音声記録装置に、使用者が内容を整理して発話順序を考えて音声を入力した場合と同様の文を作成することができる。また、編集された音声を認識することで、高い認識精度の音声認識結果を出力することができる。この結果、音声記録装置100は、使用者が事前に記録する文を作成しなくても、音声信号を記録するとともに、その内容を取得することができるようになる。すなわち、使用者が音声信号およびその内容を記録する際にかかる負担を軽減することができる。
また、本実施形態の音声記録装置100を用いることにより、使用者が音声の編集操作では記録したい音声を作成できなかった場合でも、使用者が記録する内容を整理する支援をする効果がある。そのため、次の音声入力では、記録したい文を一度に発話することができるようになる。このようにして、使用者にかかる負担を軽減することができるという効果もある。
(第2の実施の形態)
次に、本発明の実施の形態に係る音声記録装置200について、以下に説明する。
図7は、本実施形態の音声記録装置200の構成を示す機能ブロック図である。
本実施形態の音声記録装置200は、上記実施の形態とは、音声認識条件の指定操作を受け付け、指定された認識条件に従い、編集された音声信号の音声認識処理を施すことができる点で相違する。
同図に示すように、本実施形態の音声記録装置200は、図1の上記実施形態の音声記録装置100と同様な音声入力部102、音声記憶部104、音声編集部110、および音声認識結果記憶部114を備えるとともに、さらに、操作受付部206、提示部208、および音声認識部212を備える。なお、本実施形態は、図6の上記実施形態の音声記録装置100の検知部122を備える構成も含むことができる。
本実施形態の音声記録装置200において、操作受付部206は、使用者による編集対象の音声信号、および編集対象と指定された音声信号に対する認識条件を指定する操作の指示を受け付け、音声認識部212は、受け付けた指示に従って、指定された認識条件で音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力する。
すなわち、本実施形態において、音声認識部212は、上記実施形態の音声認識部112と同様の機能を有するとともに、さらに、音声認識処理を行う際に、操作受付部206から入力された音声認識条件を用いて、認識結果を出力する。また、提示部208は、上記操作受付部206が使用者による編集対象の音声信号、および編集対象と指定された音声信号に対する認識条件を指定する操作の指示を受け付けるための画面を提示する。これにより、使用者は音声認識条件を指定することができる。
操作受付部206は、上記実施形態の操作受付部106と同様な音声信号の編集操作指示の受け付けなどの機能を有するとともに、さらに、外部から入力装置を介して使用者の入力した操作信号に対応する音声認識条件を指定する指示を受け取り、音声認識条件を示す情報として音声認識部212に出力する。
また、操作受付部206は、音声信号に対する認識条件として、音声信号の単語数の指定または、音声信号の認識結果情報の正誤を指定する操作の指示を受け付け、音声認識部212は、受け付けた指示に従って、指定された認識条件で音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力する。
図8を参照して、音声認識条件の指定方法を説明する。音声認識条件の指定方法は、単語数の変更、または正誤指定等である。
指定方法の(A)は音声認識結果の単語数を増やす例であり、変更前と変更後の各音声データの単語数254が下に括弧内に示してある。変更前の3番目の音声データS3の認識結果が2単語であったところを、3単語に増加するように指定している。この変更のための操作は、たとえば、3番目の音声データS3のアイコンを図8のアイコン252aからアイコン252bのように長くするように、ドラッグ操作やピンチアウト操作することとしてもよい。このとき、図8の単語数254も2から3に変更して使用者に提示することもできる。
音声認識部212は、指定された音声に対する音声認識仮説のうち、指定された単語数のものを音声認識結果として出力すればよい。使用者は、音声認識結果に抜けがある場合や、(少数の)長い単語に誤認識された場合にこの操作を行う。
指定方法の(B)は音声認識結果の単語数を減らす例であり、3番目の音声データの認識結果が2単語であったところを、1単語に減少するように指定している。この変更のための操作は、たとえば、3番目の音声データS3のアイコンを図8の252aからアイコン252cのように短くするようにドラッグ操作やピンチイン操作することとしてもよい。このとき、図8の単語数254も2から1に変更して使用者に提示することもできる。
音声認識部212は、指定された音声に対する音声認識仮説のうち、指定された単語数のものを音声認識結果として出力すればよい。使用者は、音声認識結果にわき出しがある場合や、複数の短い単語に、コマ切れに誤認識された場合にこの操作を行う。
指定方法の(C)は、音声認識結果の正誤を指定する例であり、2番目と3番目の音声データS2とS3の認識結果が誤りであると指定している。変更(指定)後の各音声データの認識結果の正誤を示す画像情報(アイコン256)が下に括弧内に示してある。この変更のための操作は、たとえば、音声データを示すアイコン252それぞれに、誤りまたは正しいことを指定するアイコン256を追加しておき、そのアイコン256が選択されたこととすればよい。アイコン256は、誤りと正しいことをそれぞれ別のアイコンで示し、いずれかを選択するようにしてもよいし、アイコンを選択する度に、誤りと正しいことを示すアイコンが交互に示されるようにしてもよいし、他の方法であってもよく、特に限定されない。
音声認識部212は、指定された音声に対する音声認識仮説のうち、まだ誤りと指定されていないもの、または正しいと指定されたものを出力すればよい。使用者は、音声認識結果に誤りが含まれている場合にこの操作を行う。
このように構成された本実施形態の音声記録装置200の動作について、以下に説明する。
図9は、本実施形態の音声記録装置200の動作の一例を示すフローチャートである。
まず、上述のような構成において、本実施形態の音声記録装置200によるデータ処理方法を以下に説明する。本実施形態の音声記録装置200のデータ処理方法は、図5の上記実施形態の音声記録装置100の動作を示すフローチャートと同様なステップS101〜ステップS109、ステップS111、およびステップS115に加え、さらに、認識条件変更処理に関するステップS121〜125を含む。上記実施形態と同様の動作については詳細な説明を省略する。
具体的には、図9に示すように、入力装置からの通知(音声信号や操作信号の入力)を受け付ける状態で待機中に(ステップS103)、操作受付部206は、入力装置からの通知に応じて、すなわち、操作信号が入力されたとき(ステップS103の操作入力)、操作信号に対応する操作指示を受け付ける。受け付けた操作指示が編集操作指示の場合(ステップS121の編集)、ステップS111に進む。一方、受け付けた操作指示が認識条件指定指示の場合(ステップS121の認識条件指定)、音声認識条件を指定する情報を音声認識部212に出力する(ステップS123)。
音声認識部212は、操作受付部206により指定された音声を音声記憶部104より取得し、操作受付部206により指定された音声認識条件を用いて音声認識処理を行う(ステップS125)。そして、音声認識部212は、音声認識結果記憶部114に出力する。そして、提示部208が、ステップS125で音声認識結果記憶部114に新たに記憶された指定された音声に対応する音声認識結果に関する情報を取得し、画面に表示する画像情報を生成して出力装置に出力する(ステップS115)。
以上、説明したように、本実施形態の音声記録装置200によれば、上記実施形態と同様な効果を奏するとともに、使用者が音声認識結果をふまえて音声認識条件を指定するため、音声認識精度を高めることができる。
本実施形態の音声記録装置は、使用者の操作に同期して、音声の編集や認識条件の変更を行った上で音声認識処理を行い、音声認識結果を更新する。このようにすることにより、使用者が記録したい形態に音声を容易に編集することができ、同時に、その音声の内容を表すテキストデータも精度よく生成することができる。すなわち、記録する音声を、音として聞いても、文字として読んでも、わかりやすいものにすることができる。
(第3の実施形態)
次に、本発明の実施の形態に係る音声記録装置300について、以下に説明する。
図10は、本実施形態の音声記録装置300の構成を示す機能ブロック図である。
本実施形態の音声記録装置300は、図1の上記実施の形態の音声記録装置100とは、音声認識部112および音声認識結果記憶部114が、そのほかの構成要素とは異なるコンピュータ、たとえば、ネットワーク3を介して接続されたサーバ400で実現される点が異なる。音声記録装置300が備えるその他の構成要素は、図1または図6の上記実施形態の音声記録装置100、あるいは図7の上記実施形態の音声記録装置200と同様である。
図10に示すように、本実施形態の音声記録装置300は、図1の上記実施形態の音声記録装置100と同様な音声入力部102と、音声記憶部104と、操作受付部106と、提示部108と、音声編集部110と、を備えるとともに、さらに、ネットワーク3を介してサーバ400に接続し、互いに通信を行うインタフェース部(I/F)302を備える。また、サーバ400は、図1の上記実施形態の音声記録装置100と同様な音声認識部112および音声認識結果記憶部114を備えるとともに、さらに、たとえば、ネットワーク3を介して音声記録装置300に接続し、互いに通信を行うインタフェース部(I/F)402を備える。
本実施形態の音声記録装置300では、音声記憶部104に記憶される音声信号と、音声認識結果記憶部114に記憶される音声認識結果と、操作受付部106が出力する音声認識条件を示す情報は、音声認識部112が入力あるいは出力する際に、ネットワーク3を介して受け渡されるように構成されている。音声記録装置300とサーバ400との通信は、ネットワーク3を介する構成に限定されるものではなく、USBなどのシリアル通信や、パラレル通信など他の通信手段であってもよい。
具体的には、音声記録装置300の音声記憶部104に記憶された音声信号は、所定のタイミングで、すなわち、音声信号入力や、音声信号編集が行われたとき等に、インタフェース部302によりネットワーク3を介してサーバ400に送信される。そして、音声記録装置300から送信された音声信号は、サーバ400のインタフェース部402によりネットワーク3を介して受信され、音声認識部112により音声認識処理が行われ、音声認識結果が音声認識結果記憶部114に記憶される。また、サーバ400は、図示されない音声信号記憶部をさらに備えてもよく、音声記録装置300から受信した音声信号を記憶してもよい。
そして、サーバ400の音声認識結果記憶部114に記憶された音声認識結果は、サーバ400から音声記録装置300に対して、インタフェース部402により所定のタイミング、たとえば、認識処理毎、定期的、音声記録装置300からの要求に応じて等で、ネットワーク3を介して送信される。サーバ400から送信された認識結果は、音声記録装置300のインタフェース部302によりネットワーク3を介して受信され、提示部108に受け渡される。また、音声記録装置300は、図示されない音声認識結果記憶部を備えてもよく、サーバ400で音声認識処理された認証結果を受信したものを記憶してもよい。
この構成によれば、上記実施形態と同様な効果を奏するとともに、音声認識処理を他のコンピュータで行わせて処理を分散させることができ、音声記録装置300の構成をコンパクトにすることができるので、音声記録装置300を携帯型の端末装置などで容易に構成することができることとなる。
(第4の実施形態)
次に、本発明の実施の形態に係る音声記録装置500について、以下に説明する。
図11は、本実施形態の音声記録装置500の構成を示す機能ブロック図である。
本実施形態の音声記録装置500は、上記実施の形態とは、認識対象の音声信号を入力する音声入力部102、使用者による音声信号の編集操作指示を受け付ける操作受付部106、音声信号および音声認識結果などを使用者に提出する提示部108、および認識結果を記憶する音声認識結果記憶部114を含まなくてもよい構成である点で相違する。本実施形態の音声記録装置500は、図6、図8、図10の上記実施形態の音声記録装置の構成に適用することもできる。
具体的には、音声記録装置500は、図1の上記実施形態の音声記録装置100と同様な音声記憶部104と、音声編集部110と、音声認識部112と、を備える。
本実施形態において、使用者による音声信号の編集指示は操作受付部106により行う他に様々な形態が考えられる。たとえば、予め作成され、音声編集部110は、音声記録装置500のメモリにロードされたプログラムやマクロなどをCPUが実行することにより、音声記憶部104に記憶されている所定の音声信号について、所定の編集処理を行ってもよい。なお、編集対象となる音声信号は、既に音声記憶部104に記憶されているものとすることができる。
そして、編集された音声データの音声認識処理を音声認識部112が実行し、認識結果を出力する。認識結果の出力方法は、上述した実施形態と同様に提示部108により出力装置のディスプレイの画面に画像情報として表示する他に様々な形態が考えられる。たとえば、認識結果のテキストデータを音声読み上げアプリケーションプログラムなどにより読み上げた音声をスピーカなどの音声出力装置により出力して使用者に提示したり、認識結果を印刷装置により印字出力して使用者に提示したりしてもよい。
この構成によれば、上記実施形態と同様な効果を奏するとともに、既に音声記憶部104に記憶されている音声データを予め作成されたプログラムやマクロなどで編集し、編集された音声データの音声認識処理を実行して、認識結果を得ることができる。また、音声認識結果記憶部114を備える必要がないので、記憶容量を削減できる。
以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
たとえば、本発明の音声記録装置は、音声信号を含む映像信号を記録するようにしてもよい。映像に含まれる音声が表す語句(音声認識結果)は、映像の中に含まれる字幕画像や、映像検索用のインデックス情報として用いられる。このとき、本実施形態は、使用者が音声を含む映像を編集して新たな映像を記録する装置として適用可能である。
また、上記実施形態の音声記録装置では、音声編集部110により音声信号そのものについて編集処理を行う場合について説明したが、これに限定されない。たとえば、音声信号そのものはそのまま記憶しておき、音声の特徴量列を切り貼りするなどの編集処理を行う編集部(不図示)を備える構成とすることもできる。画面上に各音声の特徴量列を示す画像情報を表示し、使用者による音声の特徴量列の並べ替え(順序変更)、分割、挿入、削除、または結合等の編集操作を受け付ける構成とすることができる。
あるいは、音声信号の時刻情報またはインデックスを編集する編集部(不図示)を備える構成としてもよい。または、音声信号の編集処理、音声の特徴量列の編集処理、および、音声信号の時刻情報またはインデックスの編集処理を組み合わせた構成としてもよい。
また、上記実施形態の音声記録装置では、提示部108は、タッチパネルなどのディスプレイを例として説明したが、これ限定されるものではない。たとえば、音声信号をスピーカなどの音声出力装置により出力して使用者に提示したり、音声信号の波形画像を印刷装置により出力して使用者に提示したりしてもよい。たとえば、音声信号をスピーカなどから音声出力し、使用者が音声を聞きながら、操作スイッチを操作して編集対象となる音声信号の指定や編集操作を行う構成とすることも可能である。
また、上記実施形態の音声記録装置では、音声信号を提示部108により視覚的にタッチパネルなどに提示し、操作受付部106がタッチパネルを介して使用者の編集操作を受け付ける構成としていたが、これに限定されるものではない。たとえば、音声信号の記録時間などに基づいて、編集対象となる音声信号の指定をすることもでき、この場合、音声信号を視覚的に提示する必要はない。たとえば、上述した、音声信号の波形とともに、記録時間を印刷すれば、編集対象となる音声信号の記録時間を指定することも可能となる。
以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
なお、本発明において使用者に関する情報を取得、利用する場合は、これを適法に行うものとする。
なお、本発明は以下の態様も含むことができる。
[付記1]
音声信号を記憶する音声記憶手段と、
編集指示に従って、前記音声記憶手段に記憶された前記音声信号を編集する音声編集手段と、
前記音声編集手段により編集された前記音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力する音声認識手段と、
前記音声記憶手段に記憶された前記音声信号を使用者に視覚的に提示する提示手段と、
前記提示手段により提示された前記音声信号の中から、前記使用者による編集対象の指定、および前記編集対象として指定された前記音声信号に対する編集操作の編集指示を受け付ける操作受付手段と、を備え、
前記音声編集手段は、前記操作受付手段が受け付けた前記編集指示に従って、前記音声記憶手段に記憶された前記音声信号を編集し、
前記提示手段は、前記音声認識手段が出力した前記認識結果情報を使用者に提示する音声記録装置。
[付記2]
音声信号を記憶する音声記憶手段と、
編集指示に従って、前記音声記憶手段に記憶された前記音声信号を編集する音声編集手段と、
前記音声編集手段により編集された前記音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力する音声認識手段と、
前記音声記憶手段に記憶された前記音声信号を使用者に視覚的に提示する提示手段と、
前記提示手段により提示された前記音声信号の中から、前記使用者による編集対象の指定、および前記編集対象として指定された前記音声信号に対する編集操作の編集指示を受け付ける操作受付手段と、を備え、
前記音声認識手段は、前記音声編集手段による編集がなされる前の前記音声記憶手段に記憶された前記音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力し、
前記提示手段は、前記編集がなされる前の前記音声信号が表す語句を示す認識結果情報をさらに提示する音声記録装置。
3 ネットワーク
100 音声記録装置
102 音声入力部
104 音声記憶部
106 操作受付部
108 提示部
110 音声編集部
112 音声認識部
114 音声認識結果記憶部
122 検知部
150 画面
152 アイコン
160 画面
162 画像情報
170 画面
180 画面
182 画面
200 音声記録装置
206 操作受付部
208 提示部
212 音声認識部
252 アイコン
256 アイコン
300 音声記録装置
302 インタフェース部
400 サーバ
402 インタフェース部
500 音声記録装置

Claims (10)

  1. 音声信号を記憶する音声記憶手段と、
    編集指示に従って、前記音声記憶手段に記憶された前記音声信号を編集する音声編集手段と、
    前記音声編集手段により編集された前記音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力する音声認識手段と、
    を備える音声記録装置。
  2. 請求項1に記載の音声記録装置において、
    前記音声記憶手段に記憶された前記音声信号を使用者に視覚的に提示する提示手段と、
    前記提示手段により提示された前記音声信号の中から、前記使用者による編集対象の指定、および前記編集対象として指定された前記音声信号に対する編集操作の編集指示を受け付ける操作受付手段と、をさらに備え、
    前記音声編集手段は、前記操作受付手段が受け付けた前記編集指示に従って、前記音声記憶手段に記憶された前記音声信号を編集する音声記録装置。
  3. 請求項2に記載の音声記録装置において、
    前記提示手段は、前記音声信号、および、前記音声信号に対応する前記音声認識手段が出力した前記認識結果情報に基づいて前記音声信号が表す前記語句を表す画像を画面に表示し、
    前記操作受付手段は、前記画面に表示された前記画像を介して入力された前記使用者の前記編集対象の指定または前記編集操作の編集指示を受け付ける音声記録装置。
  4. 請求項2または3に記載の音声記録装置において、
    前記操作受付手段は、前記音声記憶手段に記憶された前記音声信号の順序を指定する編集操作の編集指示を受け付け、
    前記音声編集手段は、前記編集指示に従い、前記音声記憶手段に記憶された前記音声信号の順序を変更し、
    前記音声認識手段は、編集された前記音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力する音声記録装置。
  5. 請求項2乃至4いずれかに記載の音声記録装置において、
    前記操作受付手段は、前記使用者による前記編集対象の前記音声信号、および前記編集対象と指定された前記音声信号に対する認識条件を指定する操作の指示を受け付け、
    前記音声認識手段は、受け付けた前記指示に従って、指定された前記認識条件で前記音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力する音声記録装置。
  6. 請求項5に記載の音声記録装置において、
    前記操作受付手段は、前記音声信号に対する前記認識条件として、前記音声信号の単語数の指定または、前記音声信号の前記認識結果情報の正誤を指定する操作の指示を受け付け、
    前記音声認識手段は、受け付けた前記指示に従って、指定された前記認識条件で前記音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力する音声記録装置。
  7. 請求項2乃至6いずれかに記載の音声記録装置において、
    前記操作受付手段は、前記提示手段により提示された前記音声信号を分割、挿入、削除、または結合する編集操作の編集指示を受け付け、
    前記音声編集手段は、前記編集指示に従い、前記音声記憶手段に記憶された前記音声信号を分割、挿入、削除、または結合し、
    前記音声認識手段は、編集された前記音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力する音声記録装置。
  8. 請求項1乃至7いずれかに記載の音声記録装置において、
    前記音声認識手段は、
    前記音声編集手段により前記音声信号の編集がなされる度に、編集された前記音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力する音声記録装置。
  9. 音声記録装置のデータ処理方法であって、
    前記音声記録装置が、音声信号を記憶する音声記憶装置を備え、
    前記音声記録装置が、
    編集指示に従って、前記音声記憶装置に記憶された前記音声信号を編集し、
    編集された前記音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力する音声記録装置のデータ処理方法。
  10. 音声記録装置を実現するためのコンピュータプログラムであって、
    コンピュータは、音声信号を記憶する音声記憶装置を備え、
    コンピュータに、
    編集指示に従って、前記音声記憶装置に記憶された前記音声信号を編集する手順、
    前記音声信号を編集する手順により編集された前記音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力する手順、を実行させるためのコンピュータプログラム。
JP2010144851A 2010-06-25 2010-06-25 音声記録装置、そのデータ処理方法、およびプログラム Pending JP2012008375A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010144851A JP2012008375A (ja) 2010-06-25 2010-06-25 音声記録装置、そのデータ処理方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010144851A JP2012008375A (ja) 2010-06-25 2010-06-25 音声記録装置、そのデータ処理方法、およびプログラム

Publications (1)

Publication Number Publication Date
JP2012008375A true JP2012008375A (ja) 2012-01-12

Family

ID=45538989

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010144851A Pending JP2012008375A (ja) 2010-06-25 2010-06-25 音声記録装置、そのデータ処理方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP2012008375A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103941959A (zh) * 2013-01-23 2014-07-23 Lg电子株式会社 电子设备以及其控制方法
JP2017026822A (ja) * 2015-07-22 2017-02-02 ブラザー工業株式会社 テキスト対応付け編集装置、テキスト対応付け編集方法、及びプログラム
JP2017026821A (ja) * 2015-07-22 2017-02-02 ブラザー工業株式会社 テキスト対応付け編集装置、テキスト対応付け編集方法、及びプログラム
JP2020154057A (ja) * 2019-03-19 2020-09-24 株式会社モアソンジャパン 音声データのテキスト編集装置及び音声データのテキスト編集方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103941959A (zh) * 2013-01-23 2014-07-23 Lg电子株式会社 电子设备以及其控制方法
KR20140094871A (ko) * 2013-01-23 2014-07-31 엘지전자 주식회사 전자 기기 및 전자 기기의 제어 방법
US9304737B2 (en) 2013-01-23 2016-04-05 Lg Electronics Inc. Electronic device and method of controlling the same
KR102057284B1 (ko) * 2013-01-23 2020-01-22 엘지전자 주식회사 전자 기기 및 전자 기기의 제어 방법
JP2017026822A (ja) * 2015-07-22 2017-02-02 ブラザー工業株式会社 テキスト対応付け編集装置、テキスト対応付け編集方法、及びプログラム
JP2017026821A (ja) * 2015-07-22 2017-02-02 ブラザー工業株式会社 テキスト対応付け編集装置、テキスト対応付け編集方法、及びプログラム
JP2020154057A (ja) * 2019-03-19 2020-09-24 株式会社モアソンジャパン 音声データのテキスト編集装置及び音声データのテキスト編集方法

Similar Documents

Publication Publication Date Title
US9236045B2 (en) Methods and apparatus for proofing of a text input
JP4444396B2 (ja) 音声認識におけるポジション操作
KR100996212B1 (ko) 음성인식을 위한 방법, 시스템 및 프로그램
JP3662780B2 (ja) 自然言語を用いた対話システム
US20120016671A1 (en) Tool and method for enhanced human machine collaboration for rapid and accurate transcriptions
JP2013068952A (ja) 音声認識結果の統合
JP6726354B2 (ja) 訂正済みタームを使用する音響モデルトレーニング
CN108885869B (zh) 控制包含语音的音频数据的回放的方法、计算设备和介质
JP2009047920A (ja) ユーザと音声により対話する装置および方法
JPS6259996A (ja) 辞書操作装置
JP6280312B2 (ja) 議事録記録装置、議事録記録方法及びプログラム
JP2003518266A (ja) 音声認識システムのテキスト編集用音声再生
US20210193147A1 (en) Automated generation of transcripts through independent transcription
WO2018034169A1 (ja) 対話制御装置および方法
JP2013025299A (ja) 書き起こし支援システムおよび書き起こし支援方法
JP2014202848A (ja) テキスト生成装置、方法、及びプログラム
JP3795692B2 (ja) 文字処理装置および方法
JP2012008375A (ja) 音声記録装置、そのデータ処理方法、およびプログラム
JP5404726B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP5160594B2 (ja) 音声認識装置および音声認識方法
JP6746886B2 (ja) 学習支援装置及びその学習支援装置用のプログラム
JP2017187797A (ja) テキスト生成装置、方法、及びプログラム
JP3903841B2 (ja) 自動通訳装置及び自動通訳用プログラム
JP4229627B2 (ja) ディクテーション装置、方法及びプログラム
JP2012190088A (ja) 音声記録装置、方法及びプログラム