JP2012008375A

JP2012008375A - 音声記録装置、そのデータ処理方法、およびプログラム

Info

Publication number: JP2012008375A
Application number: JP2010144851A
Authority: JP
Inventors: Hitoshi Yamamoto; 山本　　仁; Kentaro Nagatomo; 健太郎長友; Takafumi Koshinaka; 孝文越仲
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2010-06-25
Filing date: 2010-06-25
Publication date: 2012-01-12

Abstract

【課題】音声信号を入力し、その内容情報を取得する際に、あらかじめ記録する文を作成するという使用者にかかる負担が大きいこと、を解決することが可能な音声記録装置、そのデータ処理方法、およびプログラムを提供する。
【解決手段】音声記録装置１００は、音声信号を記憶する音声記憶部１０４と、編集指示に従って、音声記憶部１０４に記憶された音声信号を編集する音声編集部１１０と、音声編集部１１０により編集された音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力する音声認識部１１２と、を備える。
【選択図】図１

Description

本発明は、音声記録装置、そのデータ処理方法、およびプログラムに関し、特に、音声信号を記録し、音声信号の内容情報を取得する音声記録装置、そのデータ処理方法、およびプログラムに関する。

使用者が発声した音声信号を記録する音声記録装置が知られている。この種の音声記録装置の一つとして、音声信号が表す語句を認識する音声認識処理によって得られる音声認識結果を、音声信号と共に記録する音声記録装置が知られている。このような音声記録装置は、記録された音声信号の内容（音声認識結果）をテキストデータの形態でも使用者に提供できるため、使用者が内容の把握がしやすいという利点を有する。

このような機能を有する音声認識処理装置の一例が特許文献１に記載されている。特許文献１に記載の音声認識処理装置は、音声データが記録された記録媒体から音声データを読み込み、音声認識してテキストデータに変換し、上記テキストデータを表示装置に表示するように構成されている。

また、特許文献２に記載された音声編集装置は、編集対象となる音声の波形を表示するとともに、そこに含まれる各音声部分に対応付けて、認識結果表示枠をそれぞれ表示し、その中に各音声部分に対応する音声認識の結果の全部または一部を表示するように構成されている。

特開平１０−３４０１７９号公報特開２００２−２９７１８８号公報

しかしながら、上述した音声記録装置においては、使用者が音声信号を入力する際に、記録する内容を整理した上で、発話する文を作成してから発声する必要がある。これは、一般的な音声認識処理では、一定の音声認識精度を得るために、文法モデルや単語連接モデルのような文発話を前提とした言語モデルを用いるためである。このため、使用者が記録する際にかかる負担が大きいという問題があった。

使用者が記録する文を作成せずに（内容を整理せずに）発声する場合として、たとえば、使用者が記録したい内容を表す語句を思いつくままに発声する場合がある。このとき、記録された一連の音声は、一文ではない語句（文の断片に相当）が連続している状態となっていることがある。よって、たとえば、記録した使用者や他の使用者があとでこれらの音声を再生しても、十分に内容を把握できないおそれがある。また、文発話を前提とする言語モデルを用いる音声認識処理では、このような音声を認識するのは難しいため、たとえば、記録した使用者や他の使用者があとでこれらの音声を認識結果であるテキストデータとして参照しても、十分に内容を把握できないおそれがある。

本発明の目的は、上述した課題である、音声信号を入力し、その内容情報を取得する際に、あらかじめ記録する文を作成するという使用者にかかる負担が大きいこと、を解決することが可能な音声記録装置、そのデータ処理方法、およびプログラムを提供することにある。

本発明によれば、音声信号を入力し、その内容情報を取得する際に、あらかじめ記録する文を作成するという使用者にかかる負担が大きいこと、を解決することが可能な音声記録装置、そのデータ処理方法、およびプログラムが提供される。

本発明の音声記録装置は、
音声信号を記憶する音声記憶手段と、
編集指示に従って、前記音声記憶手段に記憶された前記音声信号を編集する音声編集手段と、
前記音声編集手段により編集された前記音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力する音声認識手段と、を備える。

本発明の音声記録装置のデータ処理方法は、
前記音声記録装置が、音声信号を記憶する音声記憶装置を備え、
前記音声記録装置が、
編集指示に従って、前記音声記憶装置に記憶された前記音声信号を編集し、
編集された前記音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力する。

本発明のコンピュータプログラムは、
音声記録装置を実現するためのコンピュータプログラムであって、
コンピュータは、音声信号を記憶する音声記憶装置を備え、
コンピュータに、
編集指示に従って、前記音声記憶装置に記憶された前記音声信号を編集する手順、
前記音声信号を編集する手順により編集された前記音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力する手順、を実行させるためのコンピュータプログラムである。

なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

また、本発明の各種の構成要素は、必ずしも個々に独立した存在である必要はなく、複数の構成要素が一個の部材として形成されていること、一つの構成要素が複数の部材で形成されていること、ある構成要素が他の構成要素の一部であること、ある構成要素の一部と他の構成要素の一部とが重複していること、等でもよい。

また、本発明のデータ処理方法およびコンピュータプログラムには複数の手順を順番に記載してあるが、その記載の順番は複数の手順を実行する順番を限定するものではない。このため、本発明のデータ処理方法およびコンピュータプログラムを実施するときには、その複数の手順の順番は内容的に支障しない範囲で変更することができる。

さらに、本発明のデータ処理方法およびコンピュータプログラムの複数の手順は個々に相違するタイミングで実行されることに限定されない。このため、ある手順の実行中に他の手順が発生すること、ある手順の実行タイミングと他の手順の実行タイミングとの一部ないし全部が重複していること、等でもよい。

本発明によれば、使用者が音声信号を入力し、その内容情報を取得する際、使用者にかかる負担を軽減することができる音声記録装置、そのデータ処理方法、およびプログラムが提供される。

本発明の実施の形態に係る音声記録装置の構成を示す機能ブロック図である。本実施形態の音声記録装置における操作画面の例を示す図である。本実施形態の音声記録装置における編集操作を説明するための図である。本実施形態の音声記録装置における操作画面における編集操作の具体例を示す図である。本発明の実施の形態に係る音声記録装置の動作の一例を示すフローチャートである。本発明の実施の形態に係る音声記録装置の構成を示す機能ブロック図である。本発明の実施の形態に係る音声記録装置の構成を示す機能ブロック図である。本実施形態の音声記録装置における音声認識条件の指定方法の例を説明するための図である。本発明の実施の形態に係る音声記録装置の動作の一例を示すフローチャートである。本発明の実施の形態に係る音声記録装置の構成を示す機能ブロック図である。本発明の実施の形態に係る音声記録装置の構成を示す機能ブロック図である。

以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。

（第１の実施の形態）
図１は、本発明の実施の形態に係る音声記録装置１００の構成を示す機能ブロック図である。
本発明は、音声を記録するとともに、その音声の内容を取得する音声記録装置等に適用可能である。特に、画面上での操作機能を有する携帯端末などにおける、メモアプリケーションや電子メールアプリケーションなど、音声の記録処理を伴うアプリケーションに適用可能である。

本実施形態の音声記録装置１００は、音声信号を記憶する音声記憶部１０４と、編集指示に従って、音声記憶部１０４に記憶された音声信号を編集する音声編集部１１０と、音声編集部１１０により編集された音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力する音声認識部１１２と、を備える。

さらに、本実施形態の音声記録装置１００は、音声記憶部１０４に記憶された音声信号を使用者に視覚的に提示する提示部１０８と、提示部１０８により提示された音声信号の中から、使用者による編集対象の指定、および編集対象として指定された音声信号に対する編集操作の編集指示を受け付ける操作受付部１０６と、を備え、音声編集部１１０は、操作受付部１０６が受け付けた編集指示に従って、音声記憶部１０４に記憶された音声信号を編集する。

具体的には、図１に示すように、音声記録装置１００は、音声入力部１０２と、音声記憶部１０４と、操作受付部１０６と、提示部１０８と、音声編集部１１０と、音声認識部１１２と、音声認識結果記憶部１１４と、を備える。

本実施形態の音声記録装置１００は、たとえば、図示しない中央処理装置（Central Processing Unit：ＣＰＵ）やメモリ、ハードディスク駆動装置（Hard Disk Drive：ＨＤＤ）、および通信装置を備え、キーボードやマウス等の入力装置やディスプレイやプリンタ等の出力装置と接続されるサーバコンピュータやパーソナルコンピュータ、またはそれらに相当する装置により実現することができる。そして、ＣＰＵが、ハードディスクに記憶されるプログラムをメモリに読み出して実行することにより、上記各ユニット（音声入力部１０２、操作受付部１０６、提示部１０８、音声編集部１１０、および音声認識部１１２）の各機能を実現することができる。または、各ユニットは、論理回路等のハードウェアにより実現されていてもよい。また、音声記憶部１０４、および音声認識結果記憶部１１４は、たとえば、音声記録装置１００が備える記憶装置によって実現される。

すなわち、音声記録装置１００の各構成要素は、任意のコンピュータのＣＰＵ、メモリ、メモリにロードされた本図の構成要素を実現するプログラム、そのプログラムを格納するハードディスクなどの記憶ユニット、ネットワーク接続用インタフェースを中心にハードウェアとソフトウェアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。以下説明する各図は、ハードウェア単位の構成ではなく、機能単位のブロックを示している。
なお、以下の各図において、本発明の本質に関わらない部分の構成については省略してあり、図示されていない。

本実施形態のコンピュータプログラムは、音声記録装置１００を実現させるためのコンピュータに、編集指示に従って、音声記憶部１０４に記憶された音声信号を編集する手順、音声信号を編集する手順により編集された音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力する手順、を実行させるように記述されている。

さらに、本実施形態のコンピュータプログラムは、音声記憶部１０４に記憶された音声信号を使用者に視覚的に提示する手順、提示された音声信号の中から、使用者による編集対象の指定、および編集対象として指定された音声信号に対する編集操作の編集指示を受け付ける手順、受け付けた編集指示に従って、音声記憶部１０４に記憶された音声信号を編集する手順、を実行させるように記述されている。

本実施形態のコンピュータプログラムは、コンピュータで読み取り可能な記憶媒体に記録されてもよい。記録媒体は特に限定されず、様々な形態のものが考えられる。また、プログラムは、記録媒体からコンピュータのメモリにロードされてもよいし、ネットワークを通じてコンピュータにダウンロードされ、メモリにロードされてもよい。

本実施形態において、上述した出力装置は、さらに、たとえば、図示しない画面を表示するディスプレイ（タッチパネルを含む。）、および音声を出力するスピーカ等を含む。出力装置は、ＣＰＵにより出力された画像信号をディスプレイの画面に表示させる。また、出力装置は、ＣＰＵにより出力された音声信号をスピーカに音として出力させる。また、出力装置は、図示しないデータ記憶媒体や、インターネットやＬＡＮ（Local Area Network）などのネットワークとのインタフェース機器であってもよい。そのような場合には、出力装置は、データ記憶媒体やネットワークなどを介して、音声信号および音声認識結果情報を出力する。

本実施形態において、上述した入力装置は、さらに、上述した出力装置のディスプレイ上に操作画面を表示するとともに、使用者の操作を受け付けるタッチパネル、および音声を入力するマイクロホン等を含む。入力装置は、操作画面を介して、使用者の操作指示を受け付け、操作指示に対応する操作信号を入力する。たとえば、操作信号は、操作画面上での使用者の指の位置と動きの情報を示す。また、入力装置は、マイクロホンを介して、マイクロホンの周囲、すなわち、音声記録装置１００の外部の音声を集音して音声信号を入力する。また、入力装置は、データ記憶媒体やネットワークとのインタフェース機器であってもよい。そのような場合には、データ記憶媒体やネットワークなどを介して、音声信号を入力する。

なお、本実施形態では、音声記録装置１００は、外部から入力装置を介して操作信号および音声信号を入力し、入力された操作信号に対応する操作指示に従って編集された音声信号と、それに対応する音声認識結果とを出力装置を介して出力するように構成されているものとする。

音声入力部１０２は、外部から入力装置（図示せず）を介して音声信号を受け取り、その音声信号を音声記憶部１０４に出力する。音声入力部１０２は、連続する音声信号を、ひとつの音声データとして出力する。たとえば、音量が所定値より小さい信号（無音）が一定時間継続した場合に、その区間を音声信号の区切りとして、その区間の前後を異なる音声データとして記録するようにしてもよい。このように、音声入力部１０２は、一般的な自動音声検出方式によって音声信号を分割してもよい。あるいは、音声入力部１０２は、たとえば、使用者がスイッチを入れている間の音声信号をひとつの音声データとして記録するというように、使用者の指示により音声データの開始および終了を定めるようにしてもよい。この使用者の指示は、後述する操作受付部１０６に操作信号として入力され、音声データの開始と終了を示す指示として受け付ける。操作受付部１０６が、この音声データの開始と終了の指示を音声入力部１０２に通知することで、音声入力部１０２から音声記憶部１０４への音声信号の出力を制御することができる。

音声記憶部１０４は、処理対象の音声信号を記憶する。音声入力部１０２より音声信号が入力されるたびに、その音声信号を記憶する。その際、音声記憶部１０４は、音声信号の他に、音声の入力された時刻や発話した話者などの情報をあわせて記憶してもよい。時刻情報は、音声記録装置１００内部の時計（不図示）から取得してもよいし、外部から時刻情報を受信する時刻受信部（不図示）を備えてもよい。また、話者の情報は、入力装置を介して使用者などが入力操作した情報を受け付ける受付部（不図示）をさらに備えてもよい。また、音声編集部１１０より編集された音声信号が入力された場合は、その音声信号を記憶する。その際、音声記憶部１０４は、編集前の音声信号と、その対応情報もあわせて記憶してもよい。

音声認識部１１２は、音声記憶部１０４に記憶された音声信号を入力し、音声認識処理を行い、その音声信号に対応する音声認識結果を含む認識結果情報を音声認識結果記憶部１１４へ出力する。本実施形態では、音声認識部１１２は、音声認識結果として、音声信号が表す語句を示すテキストデータを音声認識結果記憶部１１４に出力する。音声認識部１１２から音声認識結果が出力されたとき、音声認識部１１２は、提示部１０８に音声認識結果そのものを出力してもよいし、あるいは、音声認識結果記憶部１１４に音声認識結果が記憶されたことを提示部１０８に通知し、提示部１０８が必要に応じて音声認識結果記憶部１１４を参照してもよい。

なお、後述するように、本実施形態において、音声認識部１１２は、音声編集部１１０による編集がなされる前の音声記憶部１０４に記憶された音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力し、提示部１０８は、編集がなされる前の音声信号が表す語句を示す認識結果情報をさらに提示する。そして、音声編集部１１０により音声信号が編集されるたびに、提示部１０８は、編集後の認識結果を更新して表示する。

音声認識部１１２は、音声認識処理において、入力された音声信号に対して、たとえば、音声認識を行うためのモデル（たとえば、音響モデル、言語モデル、単語辞書等を含む）の与えるスコアに従って、音声信号に適合する単語列を探索するといった一般的な処理を行う。ここで、音声認識部１１２は、たとえば、音響モデルとして隠れマルコフモデルを用い、言語モデルとして単語トライグラムなどを用いるようにしてもよい。なお、音声記録装置１００は、これらのモデルをあらかじめ記憶装置に記憶しているものとする。もちろん、モデルの変更や更新なども行うことができる。

音声認識部１１２は、音声認識結果として、たとえば、音声信号に対応する語句の候補を表現する単語列を出力する。また、例えば音声認識結果として、複数の単語列を含む単語グラフやＮベスト単語列の形式で表現したものを出力するようにしてもよい。このとき、音声認識部１１２は、音声認識結果の各単語が、認識した音声信号のどの区間に対応するかを表す時間情報を含むように表現した情報を認識結果情報に含めて出力してもよい。

音声認識部１１２は、編集された音声信号の認識結果を求める際に、編集前の音声信号の音声認識結果を用いてこれを求めてもよい。たとえば、編集前の音声の認識結果である単語グラフを、言語モデルを用いてリスコアリングするという方法を用いてもよい。

音声認識結果記憶部１１４は、音声記憶部１０４に記憶されている音声について音声認識部１１２が出力した音声認識結果を、認識対象の音声信号と対応付けて記憶する。音声信号に対する編集が繰り返された場合、認識結果を音声編集部１１０から得られる編集履歴（編集時刻、編集内容等）とともに対応付けて音声認識結果記憶部１１４に記憶してもよい。

提示部１０８は、音声記憶部１０４または音声認識結果記憶部１１４を参照し、音声記憶部１０４に記憶されている音声信号または音声認識結果記憶部１１４に記憶されている音声認識結果を入力し、使用者に提示するための画面に表示する画像情報として出力装置のディスプレイに出力する。

提示部１０８は、音声記憶部１０４に記憶されている音声信号について、それぞれが異なることを示す画像情報（たとえば、後述する図２のアイコン１５２）を出力する。これにより、使用者が音声信号それぞれを区別できるようにする。
また、提示部１０８は、上述した音声信号を示す画像情報に加えて、音声認識結果記憶部１１４に記憶されている上述した音声信号に対応する音声認識結果を示す画像情報を出力してもよい。たとえば、音声信号を示す画像情報の一部に、音声認識結果のテキストデータ（たとえば、後述する図２の画像情報１６２）を加えるようにしてもよい。画像情報により画面に表示される画像は、たとえば、操作の受け付けも可能なアイコンやメニュー、操作ボタンなどである。使用者は、画面に表示されたアイコンやメニュー、操作ボタンを操作することで、編集操作の指示などを容易に行うことができる。

図２を参照して、提示部１０８が出力する操作画面上に表示される画像情報の例を説明する。図２（ａ）の画面１５０には３つの音声データＳ１〜Ｓ３を示す画像情報（アイコン１５２）が表示されている。この例では、音声入力部１０２から入力された音声が音声記憶部１０４に記憶されるたびに、表示される画像情報が増える。たとえば、４番目の音声データＳ４（不図示）が入力された場合は、３番目の音声データＳ３のアイコン１５２の下に表示すればよい。
なお、図２の例では、上から下に音声データを示すアイコンを入力順に表示しているが、下から上でもよいし、画面１５０の横方向に左から右に順に並べ、画面１５０の横幅に応じて、または所定数で折り返して下方向に順次表示してもよい。

ここで、図６に示すように、本実施形態の音声記録装置１００の構成に、さらに、検知部１２２を設けることで、たとえば、音声入力部１０２から入力された音声が音声記憶部１０４に記憶されたことを検知し、検知されるたびに、入力された音声信号を示す画像情報を表示させることができる。
なお、検知部１２２による音声信号入力の検知のタイミングは、音声入力部１０２が音声信号を受け付けたときでもよいし、音声記憶部１０４に入力された音声信号が記録されたときでもよい。入力確認用のフラグなどを用いて判定してもよい。

図２（ｂ）の画面１６０は、音声認識結果記憶部１１４に記憶されている、音声データＳ１〜Ｓ３に対応する音声認識結果Ｒ１〜Ｒ３を文字列で表現した画像情報１６２を、画面１６０の下部に表示した例である。
図２（ｃ）の画面１７０は、音声データＳ１〜Ｓ３それぞれを示す画像情報（アイコン１５２）の横に、音声データＳ１〜Ｓ３それぞれに対応する音声認識結果Ｒ１〜Ｒ３の画像情報１６２を表示した例である。

図１に戻り、操作受付部１０６は、上述した提示部１０８として操作画面が表示される入力装置のタッチパネルを介して使用者が操作した操作指示を受け付け、操作対象の音声を示す情報と、操作内容（音声の編集方法）を示す情報とを音声編集部１１０に出力する。タッチパネルの操作には、使用者が指またはタッチペンなどのツールを用いてもよい。なお、タッチパネルを使用しない場合は、入力装置として、キーボード、操作ボタン、マウス、タブレットなどを用いることもできる。

本例では、使用者に画像情報を提示する出力装置としての画面が、使用者の操作指示に対応する操作信号を入力するための入力装置を兼ねることにより、使用者が、音声信号を容易に操作しうる機能を提供する。このような機能は、上述したように、一般的なタッチパネルによって実現できる。

すなわち、本実施形態において、提示部１０８および操作受付部１０６は、タッチパネルで実現することができる。提示部１０８は、音声信号、および、音声信号に対応する音声認識部１１２が出力した認識結果情報に基づいて音声信号が表す語句を表す画像を画面に表示し、操作受付部１０６は、画面に表示された画像を介して入力された操作信号に対応する使用者の編集対象の指定または編集操作の編集指示を受け付ける。

操作受付部１０６は、受け付けた操作指示に基づいて、対応する操作対象の音声を選択する操作指示を音声編集部１１０に通知する。たとえば、図２の画面１５０に表示されている音声データを示す画像情報（アイコン１５２）に、使用者が触れたことを検知することによって、その音声データを操作対象として選択する指示として受け付けるようにしてもよい。

また、操作受付部１０６は、受け付けた操作指示に基づいて、対応する操作内容を選択する操作指示を音声編集部１１０に通知する。たとえば、操作画面に表示されている操作内容を示す画像情報（たとえば、アイコン）に、使用者が触れたことを検知することによって、その操作内容を選択する指示として受け付けるようにしてもよい。あるいは、画面に表示されている音声データを示す画像情報を使用者が移動することを検知して、その操作内容を選択する指示として受け付けるようにしてもよい。

音声編集部１１０は、操作受付部１０６から通知された操作指示に含まれる、操作対象の音声を示す情報および操作内容を示す情報を入力し、音声記憶部１０４から指定された音声を取得し、指定された内容に従い編集を行い、編集後の音声を音声記憶部１０４に出力する。

音声編集部１１０で行う音声編集方法は、たとえば、音声の並べ替え（順序変更）、音声の分割、音声の挿入、音声の削除、または音声の結合（不図示）等である。
操作受付部１０６は、音声記憶部１０４に記憶された音声信号の順序を指定する編集操作の編集指示を受け付け、音声編集部１１０は、編集指示に従い、音声記憶部１０４に記憶された音声信号の順序を変更し、音声認識部１１２は、編集された音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力する。ここで、音声認識部１１２は、編集後の音声信号を一続きの音声として自動的につなげて音声認識することができる。

また、操作受付部１０６は、提示部１０８により提示された音声信号を分割、挿入、削除、または結合する編集操作の編集指示を受け付け、音声編集部１１０は、編集指示に従い、音声記憶部１０４に記憶された音声信号を分割、挿入、削除、または結合し、音声認識部１１２は、編集された音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力する。ここで、音声認識部１１２は、編集後の音声信号を一続きの音声として自動的につなげて音声認識することができる。

図３を参照して、音声編集部１１０で行う具体的な音声編集方法を説明する。図３において、編集方法の（Ａ）は音声の順序の並べ替えの例であり、この例では、２番目と３番目の音声データＳ２とＳ３の順序を変更している。編集方法の（Ｂ）は音声の分割の例であり、１番目の音声データＳ１を２つの音声データＳ２とＳ３に分割している。編集方法の（Ｃ）は音声の挿入の例であり、１番目と２番目の音声データＳ１とＳ２の間に３番目の音声データＳ３を追加している。編集方法の（Ｄ）は音声の削除の例であり、２番目の音声データＳ２を除いている。

操作受付部１０６が、上述した音声編集方法を選択するために受け付ける操作指示の例を、図３を参照して説明する。編集方法の（Ａ）の音声の並べ替えは、２番目の音声データＳ２のアイコン１５２ｂが選択され、それが３番目の音声データＳ３のアイコン１５２ｃの後ろに移動されたときに、操作受付部１０６が操作指示を受け付け、音声編集部１１０が編集を実行するようにしてもよい。あるいは、３番目の音声データＳ３のアイコン１５２ｃが選択され、それが１番目と２番目の音声データＳ１とＳ２のアイコン１５２ａと１５２ｂの間に移動されたときでもよい。あるいは、２番目と３番目の音声データＳ２とＳ３のアイコン１５２ｂと１５２ｃを同時に選択して、それらを入れ替えるように移動されたときでもよい。

編集方法の（Ｂ）の音声の分割は、１番目の音声データＳ１のアイコン１５２ｄが選択された後に分割操作実行を示す操作ボタンなどの画像（不図示）が使用者により押されたときでよい。編集方法の（Ｃ）の音声の挿入は、１番目と２番目の音声データＳ１とＳ２のアイコン１５２ａと１５２ｂの間をポインタや使用者の指で選択した状態で音声が入力されたときでよい。編集後の画面上には、入力させた音声データＳ３のアイコン１５２ｃが音声データＳ１とＳ２のアイコン１５２ａと１５２ｂの間に挿入される。

編集方法の（Ｄ）の音声の削除は２番目の音声データＳ２のアイコン１５２ｂが選択され、それが操作画面から外に出るように移動されたとき、またはゴミ箱などのアイコン（不図示）上に移動されたときでもよい。編集後の画面上では、音声データＳ１とＳ３のアイコン１５２ａと１５２ｃのみが残る。
また、図示していないが、音声の結合の場合、結合しようとする音声データのアイコンが選択され、結合先の音声データのアイコンの後ろまたは前に移動して、アイコンを互いにくっつけるように操作されたときに、操作受付部１０６が操作指示を受け付け、音声編集部１１０が編集を実行するようにしてもよい。

このように、操作受付部１０６および音声編集部１１０が、入力された音声を示す画像情報（アイコン）を画面上で操作する機能を提供することにより、使用者が記録したい音声信号を容易に作成（編集）することができる。また、音声認識部１１２が、編集後の音声信号を認識することにより、音声認識精度を高めることができる。たとえば、音声認識部１１２が、一般的な文で学習した単語連鎖モデルを言語モデルとして用いる場合、使用者が、「電池を２つ買ってくる」、「コンビニで」の順に発話した音声を入力したとする。前述の言語モデルは、このような順序で単語が連鎖する文を十分に学習していないため、正しく音声認識できないことがある。しかし、本実施形態の機能により「コンビニで」、「電池を２つ買ってくる」の順に並べ替えることで、言語モデルに適した文となり、正しく認識できるようになる。

このように、並び替えられた音声信号を一続きの音声として音声認識部１１２が認識することにより、より認識精度を高めることができる。すなわち、上述した音声信号の「結合」の編集操作を行わなくても、正しい順に音声信号を並び替える編集操作を行えば、音声認識部１１２が連続した音声として認識処理を行うことができ、正しい認識結果が得られる可能性を高めることもできる。
さらに、提示部１０８が、編集後の音声および音声認識結果を示す画像情報を出力装置に出力してディスプレイに画面表示させることで、使用者が記録した音声およびその内容を把握しやすくできる。

図４を参照して、本実施形態の音声記録装置１００の使用例を説明する。
（１）まず、使用者は音声記録装置１００に向かって、思いついた語句を発話して音声信号を入力する。ここで入力される音声信号は、文の一部となる語句を表すものである。図４（ａ）は、使用者が３つの語句を入力し、音声記録装置１００が音声を入力された順に上から下へ並べて画面１８０を出力装置に表示している例である。

（２）次に、使用者は音声記録装置１００において、図４（ａ）の画面１８０上で、音声の編集を行っているときの状態を画面１８２として図４（ｂ）に示す。図４（ｂ）の画面１８２は、１番目に入力した音声のアイコン１５２ｘを末尾に移動し（ステップＡ１）、３番目に入力した音声のアイコン１５２ｙを先頭に移動し（ステップＡ２）、先頭に移動された音声（アイコン１５２ｙ）を２つに分割した後半を削除する（ステップＡ３）編集操作を行った場合の例を示している。

なお、編集操作を行う画面は、必ずしも一画面でなくてもよく、図４（ａ）の編集前の音声信号を示す画像を含む画面１８０と、編集後の音声信号を示す画像を含む図４（ｂ）の画面１８２は、両方を並べてディスプレイ上に表示させたり、別ウインドウで切り替えて参照できるようにすることもできる。その場合は、新たな音声信号が入力された場合、図４（ａ）の画面１８０と図４（ｂ）の画面１８２の両方に新たな音声信号を示す画像が追加して表示されることとなる。

これらの編集操作は上述したアイコン１５２を介した操作信号入力機能によって実現される。（１）の時点での音声認識結果には誤りが含まれる場合が多いが、音声入力直後であれば、使用者は発声した語句を覚えているため、音声を示す画像（アイコン１５２）の操作により、これらの編集操作ができる。これらの編集操作により、使用者は発話する文をあらかじめ考えなくても、記録したい内容の音声を作成できる。

また、図６の本実施形態の音声記録装置１００において、使用者が音声を編集すると、検知部１２２が編集を検知し、音声認識部１１２に通知されて、音声認識部１１２が動作し、編集された音声に対応する語句を自動的に更新する。すなわち、音声編集部１１０により音声信号の編集がなされる度に、編集された音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力することができる。この構成により、使用者が編集により文の音声を作成する場合、音声認識処理の精度が向上し、音声の内容を示すテキストデータも精度良く音声認識結果記憶部１１４に記録できる。
なお、検知部１２２による音声信号の編集の検知のタイミングは、編集操作の編集指示を操作受付部１０６が受け付けたときでもよいし、音声記憶部１０４に編集された音声信号が記録されたときでもよい。編集確認用のフラグなどを用いて判定してもよい。

このように構成された本実施形態の音声記録装置１００の動作について、以下に説明する。
図５は、本実施形態の音声記録装置１００の動作の一例を示すフローチャートである。
まず、上述のような構成において、本実施形態の音声記録装置１００によるデータ処理方法を以下に説明する。本実施形態の音声記録装置１００のデータ処理方法は、音声記録装置１００が、編集指示に従って、音声記憶部１０４に記憶された音声信号を編集し（ステップＳ１１１）、編集された音声信号を音声認識し（ステップＳ１１３）、当該音声信号が表す語句を示す認識結果情報を出力する（ステップＳ１１５）。

さらに、本実施形態の音声記録装置１００のデータ処理方法は、音声記録装置１００が、音声記憶部１０４に記憶された音声信号を使用者に視覚的に提示し（ステップＳ１０５）、提示された音声信号の中から、使用者による編集対象の指定、および編集対象として指定された音声信号に対する編集操作の編集指示を受け付け（ステップＳ１０３の操作入力）、受け付けた指示に従って、音声記憶部１０４に記憶された音声信号を編集する（ステップＳ１１１）。

具体的には、図５に示すように、音声記録装置１００は、使用者の起動操作等により起動されると、記憶デバイス等から必要なデータを読み出し、音声入力部１０２、音声認識部１１２、提示部１０８、操作受付部１０６、および音声編集部１１０から参照できるように、音声記憶部１０４および音声認識結果記憶部１１４にデータを展開する等の初期化処理を行い（ステップＳ１０１）、入力装置からの通知（音声信号や操作指示信号の入力）を受け付ける状態で待機する（ステップＳ１０３）。

音声入力部１０２は、入力装置からの通知に応じて（ステップＳ１０３の音声入力）、音声信号を受け付けて音声記憶部１０４に記憶する。そして、提示部１０８は、音声記憶部１０４に新たに記憶された音声に関する情報を取得し、画面に表示する画像情報を生成して出力装置に出力する（ステップＳ１０５）。上述した図２（ａ）に示すように、音声データを示すアイコン１５２が画面１５０に表示される。

続いて、音声認識部１１２は、ステップＳ１０５で音声記憶部１０４に新たに記憶された音声信号を取得し、音声認識処理を行い（ステップＳ１０７）、音声認識結果記憶部１１４に出力する。提示部１０８は、音声認識結果記憶部１１４に新たに記憶された音声認識結果に関する情報を取得し、画面に表示する画像情報を生成して出力装置に出力する（ステップＳ１０９）。

一方、操作受付部１０６は、入力装置からの通知に応じて、すなわち、操作信号が入力されたとき（ステップＳ１０３の操作入力）、操作信号に対応する操作指示を受け付け、受け付けた操作指示に従い、編集する対象の音声および処理方法を含む音声編集情報を音声編集部１１０に出力する。音声編集部１１０は、入力された音声編集情報にしたがって、音声記憶部１０４より処理対象の音声を取得し、指定された内容に従い編集を施した音声を音声記憶部１０４に記憶させる（ステップＳ１１１）。このとき、編集前の音声信号と、編集後の音声信号との対応情報もあわせて音声記憶部１０４に記憶してもよいし、編集前の音声信号に上書きして記憶してもよい。この編集前後の音声信号の記憶方法（編集前の音声信号を残すか上書きするか等）は、予め装置として決めておいてもよいし、使用者に選択させてもよいし、編集の都度、選択できるようにしてもよい。

続いて、音声認識部１１２は、ステップＳ１１１で音声記憶部１０４に新たに記憶された編集後の音声を取得し、音声認識処理を行い、音声認識結果記憶部１１４に出力する（ステップＳ１１３）。そして、提示部１０８は、ステップＳ１１１で音声認識結果記憶部１１４に新たに記憶された編集後の音声に対応する音声認識結果に関する情報を取得し、画面に表示する画像情報を生成して出力装置に出力する（ステップＳ１１５）。ステップＳ１０９またはステップＳ１１５の後、ステップＳ１０３に戻る。

なお、音声記録装置１００は、終了信号が入力されることにより（ステップＳ１０３の終了）、一連の処理を終了する。終了信号は、たとえば、操作受付部１０６が、使用者の操作による終了指示を受け付けたときに出力してもよい。または、一定時間以上、音声入力部１０２が音声信号の入力を受け付けなかった場合に、自動的に出力してもよい。あるいは、音声記録装置１００が、エラー時などに強制的に処理を終了した場合に出力してもよく、様々な状況が考えられる。

以上、説明したように、本発明の実施形態に係る音声記録装置１００によれば、視覚的に提示された音声信号を編集対象として選び、操作でき、かつ、使用者によって編集された音声信号を音声認識することができるので、たとえ発話者が発話内容を意識せずに発話したとしても、認識精度の低下を防ぐことができる。

音声記録装置１００は、使用者が音声を入力する際に、入力した音声信号を編集するための操作信号の入力装置を提供し、音声信号が編集されるたびにその音声信号の音声認識処理を行い、その認識結果を音声と併せて提示するようにする。
ここで、図６の検知部１２２が、たとえば、操作受付部１０６が操作を受け付けたことを検知し、検知されるたびに、編集処理を行うとともに、音声認識処理を行うものとする。

これにより、音声記録装置１００は、記録された一連の音声が、一文ではない語句（文の断片に相当）が連続している状態であっても、使用者がそれらの音声を編集することにより、音声編集機能を有さない音声記録装置に、使用者が内容を整理して発話順序を考えて音声を入力した場合と同様の文を作成することができる。また、編集された音声を認識することで、高い認識精度の音声認識結果を出力することができる。この結果、音声記録装置１００は、使用者が事前に記録する文を作成しなくても、音声信号を記録するとともに、その内容を取得することができるようになる。すなわち、使用者が音声信号およびその内容を記録する際にかかる負担を軽減することができる。

また、本実施形態の音声記録装置１００を用いることにより、使用者が音声の編集操作では記録したい音声を作成できなかった場合でも、使用者が記録する内容を整理する支援をする効果がある。そのため、次の音声入力では、記録したい文を一度に発話することができるようになる。このようにして、使用者にかかる負担を軽減することができるという効果もある。

（第２の実施の形態）
次に、本発明の実施の形態に係る音声記録装置２００について、以下に説明する。
図７は、本実施形態の音声記録装置２００の構成を示す機能ブロック図である。
本実施形態の音声記録装置２００は、上記実施の形態とは、音声認識条件の指定操作を受け付け、指定された認識条件に従い、編集された音声信号の音声認識処理を施すことができる点で相違する。

同図に示すように、本実施形態の音声記録装置２００は、図１の上記実施形態の音声記録装置１００と同様な音声入力部１０２、音声記憶部１０４、音声編集部１１０、および音声認識結果記憶部１１４を備えるとともに、さらに、操作受付部２０６、提示部２０８、および音声認識部２１２を備える。なお、本実施形態は、図６の上記実施形態の音声記録装置１００の検知部１２２を備える構成も含むことができる。

本実施形態の音声記録装置２００において、操作受付部２０６は、使用者による編集対象の音声信号、および編集対象と指定された音声信号に対する認識条件を指定する操作の指示を受け付け、音声認識部２１２は、受け付けた指示に従って、指定された認識条件で音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力する。

すなわち、本実施形態において、音声認識部２１２は、上記実施形態の音声認識部１１２と同様の機能を有するとともに、さらに、音声認識処理を行う際に、操作受付部２０６から入力された音声認識条件を用いて、認識結果を出力する。また、提示部２０８は、上記操作受付部２０６が使用者による編集対象の音声信号、および編集対象と指定された音声信号に対する認識条件を指定する操作の指示を受け付けるための画面を提示する。これにより、使用者は音声認識条件を指定することができる。
操作受付部２０６は、上記実施形態の操作受付部１０６と同様な音声信号の編集操作指示の受け付けなどの機能を有するとともに、さらに、外部から入力装置を介して使用者の入力した操作信号に対応する音声認識条件を指定する指示を受け取り、音声認識条件を示す情報として音声認識部２１２に出力する。

また、操作受付部２０６は、音声信号に対する認識条件として、音声信号の単語数の指定または、音声信号の認識結果情報の正誤を指定する操作の指示を受け付け、音声認識部２１２は、受け付けた指示に従って、指定された認識条件で音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力する。

図８を参照して、音声認識条件の指定方法を説明する。音声認識条件の指定方法は、単語数の変更、または正誤指定等である。
指定方法の（Ａ）は音声認識結果の単語数を増やす例であり、変更前と変更後の各音声データの単語数２５４が下に括弧内に示してある。変更前の３番目の音声データＳ３の認識結果が２単語であったところを、３単語に増加するように指定している。この変更のための操作は、たとえば、３番目の音声データＳ３のアイコンを図８のアイコン２５２ａからアイコン２５２ｂのように長くするように、ドラッグ操作やピンチアウト操作することとしてもよい。このとき、図８の単語数２５４も２から３に変更して使用者に提示することもできる。
音声認識部２１２は、指定された音声に対する音声認識仮説のうち、指定された単語数のものを音声認識結果として出力すればよい。使用者は、音声認識結果に抜けがある場合や、（少数の）長い単語に誤認識された場合にこの操作を行う。

指定方法の（Ｂ）は音声認識結果の単語数を減らす例であり、３番目の音声データの認識結果が２単語であったところを、１単語に減少するように指定している。この変更のための操作は、たとえば、３番目の音声データＳ３のアイコンを図８の２５２ａからアイコン２５２ｃのように短くするようにドラッグ操作やピンチイン操作することとしてもよい。このとき、図８の単語数２５４も２から１に変更して使用者に提示することもできる。
音声認識部２１２は、指定された音声に対する音声認識仮説のうち、指定された単語数のものを音声認識結果として出力すればよい。使用者は、音声認識結果にわき出しがある場合や、複数の短い単語に、コマ切れに誤認識された場合にこの操作を行う。

指定方法の（Ｃ）は、音声認識結果の正誤を指定する例であり、２番目と３番目の音声データＳ２とＳ３の認識結果が誤りであると指定している。変更（指定）後の各音声データの認識結果の正誤を示す画像情報（アイコン２５６）が下に括弧内に示してある。この変更のための操作は、たとえば、音声データを示すアイコン２５２それぞれに、誤りまたは正しいことを指定するアイコン２５６を追加しておき、そのアイコン２５６が選択されたこととすればよい。アイコン２５６は、誤りと正しいことをそれぞれ別のアイコンで示し、いずれかを選択するようにしてもよいし、アイコンを選択する度に、誤りと正しいことを示すアイコンが交互に示されるようにしてもよいし、他の方法であってもよく、特に限定されない。
音声認識部２１２は、指定された音声に対する音声認識仮説のうち、まだ誤りと指定されていないもの、または正しいと指定されたものを出力すればよい。使用者は、音声認識結果に誤りが含まれている場合にこの操作を行う。

このように構成された本実施形態の音声記録装置２００の動作について、以下に説明する。
図９は、本実施形態の音声記録装置２００の動作の一例を示すフローチャートである。
まず、上述のような構成において、本実施形態の音声記録装置２００によるデータ処理方法を以下に説明する。本実施形態の音声記録装置２００のデータ処理方法は、図５の上記実施形態の音声記録装置１００の動作を示すフローチャートと同様なステップＳ１０１〜ステップＳ１０９、ステップＳ１１１、およびステップＳ１１５に加え、さらに、認識条件変更処理に関するステップＳ１２１〜１２５を含む。上記実施形態と同様の動作については詳細な説明を省略する。

具体的には、図９に示すように、入力装置からの通知（音声信号や操作信号の入力）を受け付ける状態で待機中に（ステップＳ１０３）、操作受付部２０６は、入力装置からの通知に応じて、すなわち、操作信号が入力されたとき（ステップＳ１０３の操作入力）、操作信号に対応する操作指示を受け付ける。受け付けた操作指示が編集操作指示の場合（ステップＳ１２１の編集）、ステップＳ１１１に進む。一方、受け付けた操作指示が認識条件指定指示の場合（ステップＳ１２１の認識条件指定）、音声認識条件を指定する情報を音声認識部２１２に出力する（ステップＳ１２３）。

音声認識部２１２は、操作受付部２０６により指定された音声を音声記憶部１０４より取得し、操作受付部２０６により指定された音声認識条件を用いて音声認識処理を行う（ステップＳ１２５）。そして、音声認識部２１２は、音声認識結果記憶部１１４に出力する。そして、提示部２０８が、ステップＳ１２５で音声認識結果記憶部１１４に新たに記憶された指定された音声に対応する音声認識結果に関する情報を取得し、画面に表示する画像情報を生成して出力装置に出力する（ステップＳ１１５）。

以上、説明したように、本実施形態の音声記録装置２００によれば、上記実施形態と同様な効果を奏するとともに、使用者が音声認識結果をふまえて音声認識条件を指定するため、音声認識精度を高めることができる。
本実施形態の音声記録装置は、使用者の操作に同期して、音声の編集や認識条件の変更を行った上で音声認識処理を行い、音声認識結果を更新する。このようにすることにより、使用者が記録したい形態に音声を容易に編集することができ、同時に、その音声の内容を表すテキストデータも精度よく生成することができる。すなわち、記録する音声を、音として聞いても、文字として読んでも、わかりやすいものにすることができる。

（第３の実施形態）
次に、本発明の実施の形態に係る音声記録装置３００について、以下に説明する。
図１０は、本実施形態の音声記録装置３００の構成を示す機能ブロック図である。
本実施形態の音声記録装置３００は、図１の上記実施の形態の音声記録装置１００とは、音声認識部１１２および音声認識結果記憶部１１４が、そのほかの構成要素とは異なるコンピュータ、たとえば、ネットワーク３を介して接続されたサーバ４００で実現される点が異なる。音声記録装置３００が備えるその他の構成要素は、図１または図６の上記実施形態の音声記録装置１００、あるいは図７の上記実施形態の音声記録装置２００と同様である。

図１０に示すように、本実施形態の音声記録装置３００は、図１の上記実施形態の音声記録装置１００と同様な音声入力部１０２と、音声記憶部１０４と、操作受付部１０６と、提示部１０８と、音声編集部１１０と、を備えるとともに、さらに、ネットワーク３を介してサーバ４００に接続し、互いに通信を行うインタフェース部（Ｉ／Ｆ）３０２を備える。また、サーバ４００は、図１の上記実施形態の音声記録装置１００と同様な音声認識部１１２および音声認識結果記憶部１１４を備えるとともに、さらに、たとえば、ネットワーク３を介して音声記録装置３００に接続し、互いに通信を行うインタフェース部（Ｉ／Ｆ）４０２を備える。

本実施形態の音声記録装置３００では、音声記憶部１０４に記憶される音声信号と、音声認識結果記憶部１１４に記憶される音声認識結果と、操作受付部１０６が出力する音声認識条件を示す情報は、音声認識部１１２が入力あるいは出力する際に、ネットワーク３を介して受け渡されるように構成されている。音声記録装置３００とサーバ４００との通信は、ネットワーク３を介する構成に限定されるものではなく、ＵＳＢなどのシリアル通信や、パラレル通信など他の通信手段であってもよい。

具体的には、音声記録装置３００の音声記憶部１０４に記憶された音声信号は、所定のタイミングで、すなわち、音声信号入力や、音声信号編集が行われたとき等に、インタフェース部３０２によりネットワーク３を介してサーバ４００に送信される。そして、音声記録装置３００から送信された音声信号は、サーバ４００のインタフェース部４０２によりネットワーク３を介して受信され、音声認識部１１２により音声認識処理が行われ、音声認識結果が音声認識結果記憶部１１４に記憶される。また、サーバ４００は、図示されない音声信号記憶部をさらに備えてもよく、音声記録装置３００から受信した音声信号を記憶してもよい。

そして、サーバ４００の音声認識結果記憶部１１４に記憶された音声認識結果は、サーバ４００から音声記録装置３００に対して、インタフェース部４０２により所定のタイミング、たとえば、認識処理毎、定期的、音声記録装置３００からの要求に応じて等で、ネットワーク３を介して送信される。サーバ４００から送信された認識結果は、音声記録装置３００のインタフェース部３０２によりネットワーク３を介して受信され、提示部１０８に受け渡される。また、音声記録装置３００は、図示されない音声認識結果記憶部を備えてもよく、サーバ４００で音声認識処理された認証結果を受信したものを記憶してもよい。

この構成によれば、上記実施形態と同様な効果を奏するとともに、音声認識処理を他のコンピュータで行わせて処理を分散させることができ、音声記録装置３００の構成をコンパクトにすることができるので、音声記録装置３００を携帯型の端末装置などで容易に構成することができることとなる。

（第４の実施形態）
次に、本発明の実施の形態に係る音声記録装置５００について、以下に説明する。
図１１は、本実施形態の音声記録装置５００の構成を示す機能ブロック図である。
本実施形態の音声記録装置５００は、上記実施の形態とは、認識対象の音声信号を入力する音声入力部１０２、使用者による音声信号の編集操作指示を受け付ける操作受付部１０６、音声信号および音声認識結果などを使用者に提出する提示部１０８、および認識結果を記憶する音声認識結果記憶部１１４を含まなくてもよい構成である点で相違する。本実施形態の音声記録装置５００は、図６、図８、図１０の上記実施形態の音声記録装置の構成に適用することもできる。

具体的には、音声記録装置５００は、図１の上記実施形態の音声記録装置１００と同様な音声記憶部１０４と、音声編集部１１０と、音声認識部１１２と、を備える。

本実施形態において、使用者による音声信号の編集指示は操作受付部１０６により行う他に様々な形態が考えられる。たとえば、予め作成され、音声編集部１１０は、音声記録装置５００のメモリにロードされたプログラムやマクロなどをＣＰＵが実行することにより、音声記憶部１０４に記憶されている所定の音声信号について、所定の編集処理を行ってもよい。なお、編集対象となる音声信号は、既に音声記憶部１０４に記憶されているものとすることができる。

そして、編集された音声データの音声認識処理を音声認識部１１２が実行し、認識結果を出力する。認識結果の出力方法は、上述した実施形態と同様に提示部１０８により出力装置のディスプレイの画面に画像情報として表示する他に様々な形態が考えられる。たとえば、認識結果のテキストデータを音声読み上げアプリケーションプログラムなどにより読み上げた音声をスピーカなどの音声出力装置により出力して使用者に提示したり、認識結果を印刷装置により印字出力して使用者に提示したりしてもよい。

この構成によれば、上記実施形態と同様な効果を奏するとともに、既に音声記憶部１０４に記憶されている音声データを予め作成されたプログラムやマクロなどで編集し、編集された音声データの音声認識処理を実行して、認識結果を得ることができる。また、音声認識結果記憶部１１４を備える必要がないので、記憶容量を削減できる。

以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
たとえば、本発明の音声記録装置は、音声信号を含む映像信号を記録するようにしてもよい。映像に含まれる音声が表す語句（音声認識結果）は、映像の中に含まれる字幕画像や、映像検索用のインデックス情報として用いられる。このとき、本実施形態は、使用者が音声を含む映像を編集して新たな映像を記録する装置として適用可能である。

また、上記実施形態の音声記録装置では、音声編集部１１０により音声信号そのものについて編集処理を行う場合について説明したが、これに限定されない。たとえば、音声信号そのものはそのまま記憶しておき、音声の特徴量列を切り貼りするなどの編集処理を行う編集部（不図示）を備える構成とすることもできる。画面上に各音声の特徴量列を示す画像情報を表示し、使用者による音声の特徴量列の並べ替え（順序変更）、分割、挿入、削除、または結合等の編集操作を受け付ける構成とすることができる。
あるいは、音声信号の時刻情報またはインデックスを編集する編集部（不図示）を備える構成としてもよい。または、音声信号の編集処理、音声の特徴量列の編集処理、および、音声信号の時刻情報またはインデックスの編集処理を組み合わせた構成としてもよい。

また、上記実施形態の音声記録装置では、提示部１０８は、タッチパネルなどのディスプレイを例として説明したが、これ限定されるものではない。たとえば、音声信号をスピーカなどの音声出力装置により出力して使用者に提示したり、音声信号の波形画像を印刷装置により出力して使用者に提示したりしてもよい。たとえば、音声信号をスピーカなどから音声出力し、使用者が音声を聞きながら、操作スイッチを操作して編集対象となる音声信号の指定や編集操作を行う構成とすることも可能である。

また、上記実施形態の音声記録装置では、音声信号を提示部１０８により視覚的にタッチパネルなどに提示し、操作受付部１０６がタッチパネルを介して使用者の編集操作を受け付ける構成としていたが、これに限定されるものではない。たとえば、音声信号の記録時間などに基づいて、編集対象となる音声信号の指定をすることもでき、この場合、音声信号を視覚的に提示する必要はない。たとえば、上述した、音声信号の波形とともに、記録時間を印刷すれば、編集対象となる音声信号の記録時間を指定することも可能となる。

以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
なお、本発明において使用者に関する情報を取得、利用する場合は、これを適法に行うものとする。

なお、本発明は以下の態様も含むことができる。
［付記１］
音声信号を記憶する音声記憶手段と、
編集指示に従って、前記音声記憶手段に記憶された前記音声信号を編集する音声編集手段と、
前記音声編集手段により編集された前記音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力する音声認識手段と、
前記音声記憶手段に記憶された前記音声信号を使用者に視覚的に提示する提示手段と、
前記提示手段により提示された前記音声信号の中から、前記使用者による編集対象の指定、および前記編集対象として指定された前記音声信号に対する編集操作の編集指示を受け付ける操作受付手段と、を備え、
前記音声編集手段は、前記操作受付手段が受け付けた前記編集指示に従って、前記音声記憶手段に記憶された前記音声信号を編集し、
前記提示手段は、前記音声認識手段が出力した前記認識結果情報を使用者に提示する音声記録装置。

［付記２］
音声信号を記憶する音声記憶手段と、
編集指示に従って、前記音声記憶手段に記憶された前記音声信号を編集する音声編集手段と、
前記音声編集手段により編集された前記音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力する音声認識手段と、
前記音声記憶手段に記憶された前記音声信号を使用者に視覚的に提示する提示手段と、
前記提示手段により提示された前記音声信号の中から、前記使用者による編集対象の指定、および前記編集対象として指定された前記音声信号に対する編集操作の編集指示を受け付ける操作受付手段と、を備え、
前記音声認識手段は、前記音声編集手段による編集がなされる前の前記音声記憶手段に記憶された前記音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力し、
前記提示手段は、前記編集がなされる前の前記音声信号が表す語句を示す認識結果情報をさらに提示する音声記録装置。

３ネットワーク
１００音声記録装置
１０２音声入力部
１０４音声記憶部
１０６操作受付部
１０８提示部
１１０音声編集部
１１２音声認識部
１１４音声認識結果記憶部
１２２検知部
１５０画面
１５２アイコン
１６０画面
１６２画像情報
１７０画面
１８０画面
１８２画面
２００音声記録装置
２０６操作受付部
２０８提示部
２１２音声認識部
２５２アイコン
２５６アイコン
３００音声記録装置
３０２インタフェース部
４００サーバ
４０２インタフェース部
５００音声記録装置

Claims

音声信号を記憶する音声記憶手段と、
編集指示に従って、前記音声記憶手段に記憶された前記音声信号を編集する音声編集手段と、
前記音声編集手段により編集された前記音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力する音声認識手段と、
を備える音声記録装置。
請求項１に記載の音声記録装置において、
前記音声記憶手段に記憶された前記音声信号を使用者に視覚的に提示する提示手段と、
前記提示手段により提示された前記音声信号の中から、前記使用者による編集対象の指定、および前記編集対象として指定された前記音声信号に対する編集操作の編集指示を受け付ける操作受付手段と、をさらに備え、
前記音声編集手段は、前記操作受付手段が受け付けた前記編集指示に従って、前記音声記憶手段に記憶された前記音声信号を編集する音声記録装置。
請求項２に記載の音声記録装置において、
前記提示手段は、前記音声信号、および、前記音声信号に対応する前記音声認識手段が出力した前記認識結果情報に基づいて前記音声信号が表す前記語句を表す画像を画面に表示し、
前記操作受付手段は、前記画面に表示された前記画像を介して入力された前記使用者の前記編集対象の指定または前記編集操作の編集指示を受け付ける音声記録装置。
請求項２または３に記載の音声記録装置において、
前記操作受付手段は、前記音声記憶手段に記憶された前記音声信号の順序を指定する編集操作の編集指示を受け付け、
前記音声編集手段は、前記編集指示に従い、前記音声記憶手段に記憶された前記音声信号の順序を変更し、
前記音声認識手段は、編集された前記音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力する音声記録装置。
請求項２乃至４いずれかに記載の音声記録装置において、
前記操作受付手段は、前記使用者による前記編集対象の前記音声信号、および前記編集対象と指定された前記音声信号に対する認識条件を指定する操作の指示を受け付け、
前記音声認識手段は、受け付けた前記指示に従って、指定された前記認識条件で前記音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力する音声記録装置。
請求項５に記載の音声記録装置において、
前記操作受付手段は、前記音声信号に対する前記認識条件として、前記音声信号の単語数の指定または、前記音声信号の前記認識結果情報の正誤を指定する操作の指示を受け付け、
前記音声認識手段は、受け付けた前記指示に従って、指定された前記認識条件で前記音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力する音声記録装置。
請求項２乃至６いずれかに記載の音声記録装置において、
前記操作受付手段は、前記提示手段により提示された前記音声信号を分割、挿入、削除、または結合する編集操作の編集指示を受け付け、
前記音声編集手段は、前記編集指示に従い、前記音声記憶手段に記憶された前記音声信号を分割、挿入、削除、または結合し、
前記音声認識手段は、編集された前記音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力する音声記録装置。
請求項１乃至７いずれかに記載の音声記録装置において、
前記音声認識手段は、
前記音声編集手段により前記音声信号の編集がなされる度に、編集された前記音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力する音声記録装置。
音声記録装置のデータ処理方法であって、
前記音声記録装置が、音声信号を記憶する音声記憶装置を備え、
前記音声記録装置が、
編集指示に従って、前記音声記憶装置に記憶された前記音声信号を編集し、
編集された前記音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力する音声記録装置のデータ処理方法。
音声記録装置を実現するためのコンピュータプログラムであって、
コンピュータは、音声信号を記憶する音声記憶装置を備え、
コンピュータに、
編集指示に従って、前記音声記憶装置に記憶された前記音声信号を編集する手順、
前記音声信号を編集する手順により編集された前記音声信号を音声認識し、当該音声信号が表す語句を示す認識結果情報を出力する手順、を実行させるためのコンピュータプログラム。