JP2005234074A - Apparatus and method for information processing, recording medium, and program - Google Patents
Apparatus and method for information processing, recording medium, and program Download PDFInfo
- Publication number
- JP2005234074A JP2005234074A JP2004040908A JP2004040908A JP2005234074A JP 2005234074 A JP2005234074 A JP 2005234074A JP 2004040908 A JP2004040908 A JP 2004040908A JP 2004040908 A JP2004040908 A JP 2004040908A JP 2005234074 A JP2005234074 A JP 2005234074A
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- information
- sound
- unit
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Television Signal Processing For Recording (AREA)
- Studio Devices (AREA)
Abstract
Description
本発明は、情報処理装置および情報処理方法、記録媒体、並びにプログラムに関し、特に、一般的に雑音とされる環境音を有効に活用することができるようにした情報処理装置および情報処理方法、記録媒体、並びにプログラムに関する。 The present invention relates to an information processing device, an information processing method, a recording medium, and a program, and in particular, an information processing device, an information processing method, and a recording that enable effective use of environmental sound that is generally regarded as noise. The present invention relates to a medium and a program.
例えば、言語音声認識においては、入力された音声から雑音を除去し、さらにスペクトル分析等の音響分析を行い、音響モデルおよび言語モデルを用いて言語音声の認識が行われる。音響モデルは、通常、音素を単位とした音声特徴量パターン分布の統計モデルであり、隠れマルコフモデル(Hidden Malkov Model)が主流である。言語モデルは、単語間の接続関係を規定する。一般的に使用されている言語モデルは、テキストデータベースから単語の連鎖統計を抽出したもので、単語どうしの接続関係を確率値で与える統計的モデルである(例えば、非特許文献1参照)。 For example, in language speech recognition, noise is removed from input speech, acoustic analysis such as spectrum analysis is performed, and speech recognition is performed using an acoustic model and a language model. The acoustic model is usually a statistical model of a voice feature amount pattern distribution in units of phonemes, and a Hidden Malkov Model is mainstream. The language model defines connection relationships between words. The language model generally used is a statistical model in which word chain statistics are extracted from a text database, and the connection relationship between words is given as a probability value (see, for example, Non-Patent Document 1).
なお、音声から雑音を除去する方法、即ち、雑音と言語音声を区別する方法としては、例えば、LPC(線形予測)分析を用いる方法がある。 In addition, as a method for removing noise from speech, that is, a method for distinguishing noise from speech speech, for example, there is a method using LPC (linear prediction) analysis.
一方、最近では、画像の編集は、例えば、PC(Personal Computer)等に搭載されている画像編集機能を用いて行うことができる。また、ビデオカメラ本体に搭載されている画像編集機能を用いて、フラッシュメモリ等に記録された画像の編集を行うことができる。 On the other hand, recently, image editing can be performed using, for example, an image editing function installed in a PC (Personal Computer) or the like. Further, it is possible to edit an image recorded in a flash memory or the like using an image editing function installed in the video camera body.
しかしながら、その前提としてユーザ自身がその機能や装置の編集操作方法等を学習する必要があった。さらに、編集作業を行うには、時間が必要とされるため、ユーザにとっては面倒であることがある。 However, as a precondition, the user himself / herself has to learn the function and the editing operation method of the apparatus. Furthermore, since it takes time to perform the editing work, it may be troublesome for the user.
そこで、画像の編集として、音声認識で得られるテキストデータと撮影画像の合成を行うカメラ装置が提案されている(例えば、特許文献1参照)。 Therefore, a camera device that synthesizes text data obtained by voice recognition and a photographed image as image editing has been proposed (see, for example, Patent Document 1).
従来の音声認識においては言語音声の認識が主であり、言語音声以外の音声は雑音として扱われ、除去の対象とされてきたため、言語音声以外の音声(環境音)は有効に活用されていなかった。 In conventional speech recognition, speech recognition is mainly used for speech, and speech other than speech is treated as noise and is subject to removal, so speech other than speech (environmental sound) is not effectively used. It was.
本発明は、このような状況に鑑みてなされたものであり、環境音を有効に活用することで、ユーザに対して、より好適な情報を提供することができるようにするものである。 This invention is made | formed in view of such a condition, and makes it possible to provide a user with more suitable information by utilizing an environmental sound effectively.
本発明の情報処理装置は、入力された音声の音源を特定する音源特定手段と、音源特定手段により特定された音源を示す音源情報に基づいて、音声に関連する情報を取得する情報取得手段とを備えることを特徴とする。 An information processing apparatus according to the present invention includes a sound source specifying unit that specifies a sound source of an input sound, an information acquisition unit that acquires information related to sound based on sound source information indicating the sound source specified by the sound source specifying unit, It is characterized by providing.
本発明の情報処理装置は、情報取得手段により取得された情報を、音声とともに記録する記録手段をさらに備えるようにすることができる。 The information processing apparatus according to the present invention may further include a recording unit that records the information acquired by the information acquisition unit together with the voice.
本発明の情報処理装置は、音声に含まれる言語音声を認識し、その言語音声に対応するテキストデータを出力する言語音声認識手段をさらに備え、記録手段は、テキストデータも音声とともに記録するようにすることができる。 The information processing apparatus according to the present invention further includes language speech recognition means for recognizing language speech included in speech and outputting text data corresponding to the language speech, and the recording means records the text data together with the speech. can do.
本発明の情報処理装置は、画像を撮影する撮影手段と、撮影手段により取得された画像を、情報取得手段により取得された情報を用いて編集する画像編集手段と、画像編集手段による編集により得られる編集画像を音声とともに記録する記録手段とさらに備えるようにすることができる。 An information processing apparatus according to the present invention includes an imaging unit that captures an image, an image editing unit that edits an image acquired by the imaging unit using information acquired by the information acquisition unit, and editing by the image editing unit. And a recording means for recording the edited image together with the sound.
本発明の情報処理装置は、音声に含まれる言語音声を認識し、その言語音声に対応するテキストデータを出力する言語音声認識手段をさらに備え、画像編集手段は、画像を、テキストデータも用いて編集するようにすることができる。 The information processing apparatus of the present invention further includes language speech recognition means for recognizing language speech included in speech and outputting text data corresponding to the language speech, and the image editing means uses the image as text data. Can be edited.
本発明の情報処理装置は、情報取得手段により取得された情報を用いて、電子メールのデータを作成するメール作成手段をさらに備えるようにすることができる。 The information processing apparatus according to the present invention may further include a mail creating unit that creates data of electronic mail using the information acquired by the information acquiring unit.
本発明の情報処理装置は、音声に含まれる言語音声を認識し、その言語音声に対応するテキストデータを出力する言語音声認識手段をさらに備え、メール作成手段は、電子メールのデータを、テキストデータも用いて作成するようにすることができる。 The information processing apparatus of the present invention further includes language speech recognition means for recognizing language speech included in speech and outputting text data corresponding to the language speech, and the mail creation means converts the email data into text data. Can also be created using.
本発明の情報処理装置は、情報取得手段により取得した情報を表示する表示手段をさらに備えるようにすることができる。 The information processing apparatus of the present invention can further include display means for displaying information acquired by the information acquisition means.
音源特定手段は、ネットワークを介して接続された外部の装置に音声を処理させることにより、その音源を特定するようにすることができる。 The sound source specifying means can specify the sound source by causing an external device connected via the network to process the sound.
情報取得手段は、ネットワークを介して通信を行うことにより、情報を取得するようにすることができる。 The information acquisition means can acquire information by communicating via a network.
本発明の情報処理方法は、入力された音声の音源を特定する音源特定ステップと、音源特定の処理により特定された音源を示す音源情報に基づいて、音声に関連する情報を取得する情報取得ステップとを含むことを特徴とする。 The information processing method of the present invention includes a sound source specifying step for specifying a sound source of input sound, and an information acquisition step for acquiring information related to sound based on sound source information indicating the sound source specified by the sound source specifying process. It is characterized by including.
本発明の記録媒体に記録されているプログラムは、入力された音声の音源を特定する音源特定ステップと、音源特定ステップの処理により特定された音源を示す音源情報に基づいて、音声に関連する情報を取得する情報取得ステップとを含むことを特徴とする。 The program recorded in the recording medium of the present invention includes a sound source specifying step for specifying a sound source of input sound, and sound-related information based on sound source information indicating the sound source specified by the processing of the sound source specifying step. And an information acquisition step of acquiring.
本発明のプログラムは、入力された音声の音源を特定する音源特定ステップと、音源特定ステップの処理により特定された音源を示す音源情報に基づいて、音声に関連する情報を取得する情報取得ステップとをコンピュータに実行させることを特徴とする。 The program of the present invention includes a sound source specifying step for specifying a sound source of input sound, an information acquisition step for acquiring information related to sound based on sound source information indicating the sound source specified by the processing of the sound source specifying step, Is executed by a computer.
本発明においては、入力された音声の音源が特定され、その音源を示す音源情報に基づいて、入力された音声に関連する情報が取得される。 In the present invention, a sound source of the input sound is specified, and information related to the input sound is acquired based on sound source information indicating the sound source.
なお、ネットワークとは、少なくとも2つの装置が接続され、ある装置から、他の装置に対して、情報の伝達をできるようにした仕組みをいう。ネットワークを介して通信する装置は、独立した装置どうしであっても良いし、1つの装置を構成している内部ブロックどうしであっても良い。 Note that a network is a mechanism in which at least two devices are connected and information can be transmitted from one device to another device. The devices that communicate via the network may be independent devices, or may be internal blocks that constitute one device.
また、通信とは、無線通信および有線通信は勿論、無線通信と有線通信とが混在した通信、即ち、ある区間では無線通信が行われ、他の区間では有線通信が行われるようなものであっても良い。さらに、ある装置から他の装置への通信が有線通信で行われ、他の装置からある装置への通信が無線通信で行われるようなものであっても良い。 The communication is not only wireless communication and wired communication, but also communication in which wireless communication and wired communication are mixed, that is, wireless communication is performed in a certain section and wired communication is performed in another section. May be. Further, communication from one device to another device may be performed by wired communication, and communication from another device to one device may be performed by wireless communication.
本発明によれば、入力された音声をもとに、入力された音声に関連する情報の取得ができ、ユーザに対して、より好適な情報を提供するこができる。 ADVANTAGE OF THE INVENTION According to this invention, the information relevant to the input audio | voice can be acquired based on the input audio | voice, and more suitable information can be provided with respect to a user.
以下に本発明の実施の形態を説明するが、請求項に記載の構成要件と、発明の実施の形態における具体例との対応関係を例示すると、次のようになる。この記載は、請求項に記載されている発明をサポートする具体例が、発明の実施の形態に記載されていることを確認するためのものである。従って、発明の実施の形態中には記載されているが、構成要件に対応するものとして、ここには記載されていない具体例があったとしても、そのことは、その具体例が、その構成要件に対応するものではないことを意味するものではない。逆に、具体例が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その具体例が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。 Embodiments of the present invention will be described below. Correspondences between constituent elements described in the claims and specific examples in the embodiments of the present invention are exemplified as follows. This description is to confirm that specific examples supporting the invention described in the claims are described in the embodiments of the invention. Therefore, even if there are specific examples that are described in the embodiment of the invention but are not described here as corresponding to the configuration requirements, the specific examples are not included in the configuration. It does not mean that it does not correspond to a requirement. On the contrary, even if a specific example is described here as corresponding to a configuration requirement, this means that the specific example does not correspond to a configuration requirement other than the configuration requirement. not.
さらに、この記載は、発明の実施の形態に記載されている具体例に対応する発明が、請求項に全て記載されていることを意味するものではない。換言すれば、この記載は、発明の実施の形態に記載されている具体例に対応する発明であって、この出願の請求項には記載されていない発明の存在、すなわち、将来、分割出願されたり、補正により追加される発明の存在を否定するものではない。 Further, this description does not mean that all the inventions corresponding to the specific examples described in the embodiments of the invention are described in the claims. In other words, this description is an invention corresponding to the specific example described in the embodiment of the invention, and the existence of an invention not described in the claims of this application, that is, in the future, a divisional application will be made. Nor does it deny the existence of an invention added by amendment.
請求項1に記載の情報処理装置は、入力された音声の音源を特定する音源特定手段(例えば、図1の音源特定部15)と、音源特定手段により特定された音源を示す音源情報に基づいて、音声に関連する情報を取得する情報取得手段(例えば、図1の情報取得部16)とを備えることを特徴とする。
The information processing apparatus according to claim 1 is based on sound source specifying means (for example, the sound
請求項2に記載の情報処理装置は、情報取得手段(例えば、図1の情報取得部16)により取得された情報を、音声とともに記録する記録手段(例えば、図1の記録制御部19)をさらに備えることを特徴とする。
The information processing apparatus according to claim 2 includes a recording unit (for example, the
請求項3に記載の情報処理装置は、音声に含まれる言語音声を認識し、その言語音声に対応するテキストデータを出力する言語音声認識手段(例えば、図1の言語音声認識部14)をさらに備え、記録手段(例えば、図1の記録制御部19)は、テキストデータも音声とともに記録することを特徴とする。
The information processing apparatus according to claim 3 further includes a linguistic speech recognition unit (for example, the linguistic speech recognition unit 14 in FIG. 1) that recognizes linguistic speech included in speech and outputs text data corresponding to the linguistic speech. The recording means (for example, the
請求項4に記載の情報処理装置は、画像を撮影する撮影手段(例えば、図1の画像入力部12)と、撮影手段により取得された画像を、情報取得手段(例えば、図1の情報取得部16)により取得された情報を用いて編集する画像編集手段(例えば、図1の画像編集部18)と、画像編集手段による編集により得られる編集画像を音声とともに記録する記録手段(例えば、図1の記録制御部19)とをさらに備えることを特徴とする。
The information processing apparatus according to claim 4 includes an imaging unit that captures an image (for example, the
請求項5に記載の情報処理装置は、音声に含まれる言語音声を認識し、その言語音声に対応するテキストデータを出力する言語音声認識手段(例えば、図1の言語音声認識部14)をさらに備え、画像編集手段(例えば、図1の画像編集部18)は、画像を、テキストデータも用いて編集することを特徴とする。
The information processing apparatus according to claim 5 further includes language speech recognition means (for example, the language speech recognition unit 14 in FIG. 1) that recognizes language speech included in speech and outputs text data corresponding to the language speech. The image editing means (for example, the
請求項6に記載の情報処理装置は、情報取得手段(例えば、図11の情報取得部16)により取得された情報を用いて、電子メールのデータを作成するメール作成手段(例えば、図11のメール作成部51)をさらに備えることを特徴とする。
The information processing apparatus according to claim 6 is a mail creation unit (for example, FIG. 11) that creates e-mail data using information acquired by the information acquisition unit (for example, the
請求項7に記載の情報処理装置は、音声に含まれる言語音声を認識し、その言語音声に対応するテキストデータを出力する言語音声認識手段(例えば、図11の言語音声認識部14)をさらに備え、メール作成手段(例えば、図11のメール作成部51)は、電子メールのデータを、テキストデータも用いて作成することを特徴とする。
The information processing apparatus according to claim 7 further includes a linguistic voice recognition unit (for example, the linguistic voice recognition unit 14 in FIG. 11) that recognizes linguistic voice included in the voice and outputs text data corresponding to the linguistic voice. The mail creation means (for example, the
請求項8に記載の情報処理装置は、情報取得手段(例えば、図17の情報取得部16)により取得した情報を表示する表示手段(例えば、図17の表示制御部81)をさらに備えることを特徴とする。
The information processing apparatus according to claim 8 further includes a display unit (for example, the display control unit 81 in FIG. 17) that displays information acquired by the information acquisition unit (for example, the
請求項9に記載の情報処理装置は、音源特定手段(例えば、図1の音源特定部15)が、ネットワークを介して接続された外部の装置に音声を処理させることにより、その音源を特定することを特徴とする。
The information processing apparatus according to claim 9 specifies a sound source by a sound source specifying unit (for example, the sound
請求項10に記載の情報処理装置は、情報取得手段(例えば、図1の情報取得部16)が、ネットワークを介して通信を行うことにより、情報を取得することを特徴とする。
The information processing apparatus according to claim 10 is characterized in that information acquisition means (for example, the
請求項11に記載の情報処理方法は、入力された音声の音源を特定する音源特定ステップ(例えば、図8のステップS3の処理)と、音源特定ステップの処理により特定された音源を示す音源情報に基づいて、音声に関連する情報を取得する情報取得ステップ(例えば、図8のステップS4の処理)とを含むことを特徴とする。
The information processing method according to
請求項12に記載の記録媒体に記録されているプログラム、および請求項13に記載のプログラムは、入力された音声の音源を特定する音源特定ステップ(例えば、図8のステップS3の処理)と、音源特定ステップの処理により特定された音源を示す音源情報に基づいて、音声に関連する情報を取得する情報取得ステップ(例えば、図8のステップS4の処理)とを含むことを特徴とする。
The program recorded on the recording medium according to
このプログラムは、記録媒体(例えば、図20の磁気ディスク111)に記録することができる。
This program can be recorded on a recording medium (for example, the
図1は、本発明を適用したビデオカメラの一実施の形態の構成例を示すブロック図である。 FIG. 1 is a block diagram showing a configuration example of an embodiment of a video camera to which the present invention is applied.
ビデオカメラ10は、音声入力部11、画像入力部12、音声認識部13、情報取得部16、情報データベース17、画像編集部18、記録制御部19、および記録媒体20から構成されている。
The video camera 10 includes an
音声入力部11は、音声を集音することにより、音声データを取得し、言語音認識部14、および音源特定部15、並びに記録制御部19に供給する。音声入力部11は、例えば、マイクロホンなどで構成される。
The
画像入力部12は、撮影対象を撮影することにより、撮影画像データを取得し、画像編集部18に供給する。画像入力部12は、例えば、CCD(Charge Coupled Device)やCMOS(Complementary Metal Oxide Semiconductor)イメージャなどで構成される。
The
音声認識部13は、言語音認識部14、および音源特定部15から構成されている。
The
言語音認識部14は、音声入力部11から供給された音声データに含まれる言語音声を音声認識処理し、その言語音声に対応するテキストデータを、画像編集部18に供給する。
The language sound recognition unit 14 performs speech recognition processing on the language sound included in the sound data supplied from the
音源特定部15は、音声入力部11から供給された音声データに含まれる音声の音源を特定し、その音源を表す音源情報を、情報取得部16に供給する。
The sound
情報取得部16は、音源特定部15により供給された音源情報に基づいて、情報データベース17から、音声入力部11に入力された音声に関連する情報を取得し、画像編集部18に供給する。
Based on the sound source information supplied from the sound
情報データベース17は、各種の音声に関連する情報(例えば、特定の音(音源)に直接関連する画像やテキスト情報、さらには、その特定の音が生じるシーンを効果的に表す画像(例えば、エフェクトをかける画像(効果画像)などの、特定の音に間接的に関連する画像やテキスト情報)など)を、音源情報(例えば、「ジェットコースタ」などのキーワード)に対応付けて記憶している。
The
画像編集部18は、画像入力部12により供給される撮影画像データを編集する。即ち、これは、画像編集部18からの撮影画像データに、言語音声認識部14から供給されるテキストデータ、または情報取得部16から供給される情報を合成し、その結果得られる合成画像データを、記録制御部19へ供給する。
The
記録制御部19は、音声入力部11から供給される音声データと、画像編集部18から供給される合成画像データとを、記録媒体20に記録する制御を行う。
The
記録媒体20は、例えば、磁気テープ、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等で構成される。
The
図2は、図1の音源特定部15の構成例を示している。音源特定部15は、FFT処理部31、データ比較部32、および音源特定データベース33から構成されている。
FIG. 2 shows a configuration example of the sound
FFT処理部31は、音声入力部11から供給された音声データをFFT(Fast Fourier Transform)処理することにより、周波数スペクトルを得て、データ比較部32に供給する。
The FFT processing unit 31 obtains a frequency spectrum by performing FFT (Fast Fourier Transform) processing on the audio data supplied from the
データ比較部32は、FFT処理部31から供給された周波数スペクトルと、音源特定データベース33に記憶されている周波数スペクトルとを比較し、音声入力部11から供給された音声データの音源を表す音源情報を出力する。
The data comparison unit 32 compares the frequency spectrum supplied from the FFT processing unit 31 with the frequency spectrum stored in the sound
音源特定データベース33は、各種の音源に対応する周波数スペクトルのモデル(周波数スペクトルモデル)を記憶している。なお、音源特定部33には、その他、室内、室外、車内等の場所(環境)を特定するために、反射音に関連するデータも記憶するようにしても良い。
The sound
ここで、音源特定部15の処理の概要を、図3を用いて説明する。例えば、遊園地にて、図1のビデオカメラ10によってジェットコースタを撮影した場合、音声入力部11では、ジェットコースタの車輪音その他の音が集音される。音源特定部15は、音声入力部11で集音された音声(以下、適宜、集音音声と称する)に、音源として、例えば、図3に示すようなジェットコースタの車輪音、乗客の叫び声、遊園地のBGM、遊園地のその他の音、および撮影者のナレーションコメントが含まれていることを特定し、それぞれの音源を表す音源情報を、情報取得部16に供給する。
Here, the outline of the processing of the sound
音源特定部15は、例えば以下に示すような周波数スペクトルの比較により、音源を特定する。
The sound
即ち、音源特定部15は、音声入力部11からの音声データに対してFFT(Fast Fourier Transform)処理を行うことで得られる周波数スペクトルを、音源特定データベース33に記憶されている周波数スペクトル(モデル)と比較することで音源の特定を行う。
That is, the sound
図4は、ある音源の音に対してFFT処理を行うことにより得られた周波数軸スペクトルを示している。なお、図4において、横軸は周波数を示し、縦軸は強度を示している。音源特定部15は、例えば、図4に示した周波数スペクトルにおいて突出した周波数成分を、音源特定データベース33に記憶されている、各種音源に対応する周波数スペクトルと比較することにより、音源の特定を行う。
FIG. 4 shows a frequency axis spectrum obtained by performing FFT processing on the sound of a certain sound source. In FIG. 4, the horizontal axis represents frequency and the vertical axis represents intensity. For example, the sound
なお、周波数成分(周波数スペクトル)どうしの比較は、例えば、可聴周波数帯域を16分割や32分割などして、その分割した周波数帯域ごとに、言わば簡易的に行っても良い。 Note that the comparison between frequency components (frequency spectra) may be performed simply, for example, by dividing the audible frequency band into 16 or 32, and so on for each divided frequency band.
また、音源特定部15では、周波数スペクトルの時間変化によって、音源を特定することもできる。音源特定部15では、例えば、音声入力部11からの音声から、特定のレベルとなっている周波数が時間の経過に伴い上昇する、あるいは下降する特徴を抽出し、その特徴を、音源特定データベース33に記憶されている周波数スペクトルと比較することで音源を特定することができる。ここで、図5に、特定のレベルとなっている周波数が上昇する周波数スペクトルを示す。
The sound
また、音源特定部15では、図6に示すような、音声入力部11からの音声の周波数スペクトルの時間変化、さらには、その高調波成分の分布、および強度を、音源特定データベース33に記憶されている周波数スペクトルと比較することで音源を特定することができる。
Further, in the sound
また、音源特定部15では、図7に示すような、音声入力部11からの音声の周波数スペクトルの時間変化、および時間経過に伴う減衰特性を、音源特定データベース33に記憶されている周波数スペクトルと比較することで音源を特定することができる。
Further, in the sound
図8は、図1のビデオカメラ10の撮影記録処理を説明するフローチャートである。 FIG. 8 is a flowchart for explaining shooting and recording processing of the video camera 10 of FIG.
ステップS1において、音声入力部11は音声を集音することにより音声データを取得し、言語音声認識部14、音源特定部15、および記録制御部19に供給する。また、画像入力部12は、撮影対象を撮影することにより撮影画像データを取得し、画像編集部18に供給する。
In step S <b> 1, the
ステップS1からステップS2へ進み、言語音声認識部14は、一般的な言語音声認識技術を用いて、音声入力部11から供給された音声データを、対応するテキストデータに変換し、画像編集部18へ供給して、ステップS3へ進む。
Proceeding from step S1 to step S2, the language speech recognition unit 14 converts the speech data supplied from the
ステップS3において、音源特定部15(図2)は、FFT処理部31にて、音声入力部11から供給された音声データに対してFFT処理を行い、その音声データを周波数スペクトルへ変換し、データ比較部32へ供給する。
In step S3, the sound source identification unit 15 (FIG. 2) performs FFT processing on the audio data supplied from the
さらに、ステップS3において、データ比較部32は、FFT処理部31から供給された周波数スペクトルを、音源特定データベース33に記憶されている各種の音源に対応する周波数スペクトル(モデル)と比較し、その比較結果に基づいて、音声入力部11に入力された音声の音源を特定する。データ比較部32は、特定した音源を示す音源情報を情報取得部16に供給し、ステップS4に進む。
Further, in step S3, the data comparison unit 32 compares the frequency spectrum supplied from the FFT processing unit 31 with frequency spectra (models) corresponding to various sound sources stored in the sound
ステップS4において、情報取得部16は、音源特定部15(のデータ比較部32)から供給された音源情報に基づいて、情報データベース17から、集音音声(音声入力部11に入力された音声)に関連する情報を取得し、画像編集部18に供給する。
In step S4, the
ステップS4からステップS5へ進み、画像編集部18は、画像入力部12から供給された撮影画像データに対して、言語音認識部14から供給されたテキストデータ、および情報取得部16から供給された情報を合成し、その合成画像データを記録制御部19に供給して、ステップS6へ進む。
Proceeding from step S4 to step S5, the
ステップS6において、記録制御部19は、音声入力部11から供給された音声データと画像編集部18から供給された合成画像データを、ともに記録媒体20へ記録し、ステップS1に戻り撮影記録処理を繰り返す。
In step S6, the
なお、上述の場合には、撮影画像データに対して編集としての合成を行った合成画像データを記録するようにしたが、撮影画像データに合成する情報やテキスト(テロップ)データは、撮影画像データおよび音声データに関連付けて記録するようにし、再生時に、撮影画像データに合成するようにしても良い。この場合、ユーザ操作により、撮影画像データ、または合成画像データの再生を選択することができる。 In the above-described case, the composite image data obtained by combining the captured image data as an edit is recorded. However, information or text (telop) data to be combined with the captured image data is recorded in the captured image data. In addition, recording may be performed in association with audio data, and may be combined with captured image data during reproduction. In this case, reproduction of captured image data or composite image data can be selected by a user operation.
また、集音音声に関連する情報の取得を行う処理、および取得した情報を撮影画像データに合成する処理は、撮影(記録)後に行うようにすることも可能である。 Further, the process of acquiring information related to the collected sound and the process of synthesizing the acquired information with captured image data can be performed after shooting (recording).
図9は、図1のビデオカメラ10の第1の処理の概要を示す図である。 FIG. 9 is a diagram showing an outline of the first processing of the video camera 10 of FIG.
撮影画像41は、ビデオカメラ10によるを撮影によって得られた画像を示している。即ち、撮影画像41は、例えば、遊園地でジェットコースタを撮影することにより得られた画像である。
A photographed
効果画像42は、ビデオカメラ10で撮影画像41を撮影した時の集音音声に含まれる音の音源を示す音源情報に基づいて、情報データベース17から取得された情報としての画像を示している。効果画像42は、例えば、撮影画像41に表示されているジェットコースタに乗っているときの恐怖をイメージさせる画像となっている。
The
図1のビデオカメラ10では、撮影画像41に対して、効果画像42が合成され、その結果、合成画像43が得られる。
In the video camera 10 of FIG. 1, the
図10は、図1のビデオカメラ10の第2の処理の概要を示す図である。 FIG. 10 is a diagram showing an outline of the second processing of the video camera 10 of FIG.
撮影画像46は、ビデオカメラ10による撮影によって得られた画像を示している。即ち、撮影画像46は、例えば、F1(Formula 1)レースにおけるレーシングカーを撮影することにより得られた画像である。
The photographed
情報画像47は、ビデオカメラ10で集音音声に含まれる音の音源を示す音源情報に基づいて、情報データベース17から取得された情報としての画像を示している。情報画像47は、例えば、撮影画像46に表示されているレーシングカーのエンジン音から特定されるマシンの画像や、詳細情報を記述したテキスト情報などを含んでいる。
The
図1のビデオカメラ10では、撮影画像46に対して、情報画像47が合成され、合成画像48が得られる。
In the video camera 10 of FIG. 1, the
このようにビデオカメラ10では、撮影時に集音された音声に合わせて撮影画像に効果画像や情報画像を合成するなどの画像編集が行われるので、ユーザが編集を行う手間を省くことができる。 As described above, the video camera 10 performs image editing such as synthesizing the effect image and the information image with the captured image in accordance with the sound collected at the time of shooting, so that the user can save time and effort for editing.
また、鑑賞時において、撮影画像に対し、ユーザの予測しない編集が加えられていることで、より一層の楽しみをユーザへ与えることができる。 In addition, at the time of viewing, editing that is not predicted by the user is added to the captured image, so that even more enjoyment can be given to the user.
さらに、集音音声に含まれる特定の音に関連する画像やテキスト情報が合成されるので、ユーザに対してより有益な情報を提供することができる。 Furthermore, since the image and text information related to the specific sound included in the collected voice are synthesized, more useful information can be provided to the user.
なお、上述した処理は、ビデオカメラと同様に、画像と音声を取得することができる、例えば、デジタルスチルカメラやテレビジョン受像機などで行うことも可能であり、上述の効果と同様の効果を得ることができる。 Note that the above-described processing can acquire images and sound in the same manner as a video camera. For example, the processing can be performed by a digital still camera, a television receiver, or the like. Can be obtained.
また、上述の場合には、音声認識部13、情報取得部16、および画像編集部18がビデオカメラ10内部に実装されているが、音声認識部13、情報取得部16、または画像編集部18のうちの1以上は、外部に設置された装置(外部装置)に実装し、ビデオカメラ10がネットワークを介して外部装置と通信することにより、音声認識部13、情報取得部16、または画像編集部18が行う処理を外部装置に実行させるようにしても良い。外部装置とは、例えば、PCやサーバなどである。
In the above-described case, the
また、上述の場合には、情報取得部16が、ビデオカメラ10本体に内蔵された情報データベース17から情報を取得するようにしたが、情報取得部16は、ネットワークを介して外部装置から情報を取得するようにしても良いし、ビデオカメラ10に着脱可能なリムーバルメディア、例えば、フラッシュメモリなどから情報を取得するようにしても良い。
In the above case, the
図11は、本発明を適用した携帯電話機の一実施の形態の構成例を示すブロック図である。図11において、図1のビデオカメラ10における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。 FIG. 11 is a block diagram showing a configuration example of an embodiment of a mobile phone to which the present invention is applied. 11, parts corresponding to those in the video camera 10 of FIG. 1 are denoted by the same reference numerals, and description thereof will be omitted as appropriate.
携帯電話機50は、音声入力部11、音声認識部13、情報取得部16、情報データベース17、メール作成部51、通信部52から構成されている。
The
言語音声認識部14は、音声入力部11から供給された音声データを音声認識することにより得られるテキストデータを、メール作成部51に供給する。
The language voice recognition unit 14 supplies text data obtained by voice recognition of the voice data supplied from the
情報取得部16は、音源特定部15により供給された音源情報に基づいて、情報データベース17から得られた情報を、メール作成部51に供給する。
The
メール作成部51は、言語音声認識部14から供給されるテキストデータと、情報取得部16から供給される情報をもとにメール(電子メール)を作成し、通信部52へ、そのメールのメールデータを供給する。
The
通信部52は、メール作成部51から供給されたメールデータをインターネット等のネットワークを介して外部(通話相手)へ送信する。
The
ここで、図11の本実施の形態では、音声認識部13、情報取得部16、およびメール作成部51が携帯電話機50内部に実装されているが、音声認識部13、情報取得部16、またはメール作成部51は、外部の装置、例えば、携帯電話会社のデータセンタ(基地局や制御センタ)に設置されているサーバなどに実装することができる。この場合、携帯電話機50からは、必要なデータを、データセンタに送信させ、音声認識部13、情報取得部16、またはメール作成部51が行う処理を、データセンタで行うようにしても良い。
Here, in the present embodiment of FIG. 11, the
また、図11の本実施の形態では、情報取得部16が携帯電話機50内部に実装された情報データベース17から情報を取得するようにしたが、例えば、携帯電話会社のデータセンタ(基地局や制御センタ)に設置されているサーバなどから情報を取得するようにしても良いし、携帯電話機50に着脱可能なリムーバルメディア、例えば、フラッシュメモリなどから情報を取得するようにしても良い。
In the present embodiment of FIG. 11, the
図12は、図11の携帯電話機50における処理を説明するフローチャートである。
FIG. 12 is a flowchart for explaining processing in the
ステップS21において、音声入力部11は、音声データを取得し、音声認識部13に供給して、ステップS22へ進む。なお、この音声データは、音声認識部13に供給される他、電話の音声のデータとして基地局に送信される。
In step S21, the
図12のフローチャートに従った処理は、例えば、携帯電話機50において、他の携帯電話機との通信が開始されると開始される。即ち、ステップS22において、言語音声認識部14は、音声入力部11から供給された音声データを音声認識することにより、テキストデータに変換し、メール作成部51に供給する。
The process according to the flowchart of FIG. 12 is started when, for example, the
その後、ステップS23では、図8のステップS3における場合と同様に、音源特定部15が、音声入力部11に入力された音声の音源を特定し、その音源を表す音源情報を、情報取得部16に供給してステップS24に進む。ステップS24では、情報取得部16は、音源特定部15から供給された音源情報に基づいて、情報データベース17から、集音音声(音声入力部11に入力された音声)に関連する画像を取得し、メール作成部51に供給する。
Thereafter, in step S23, as in step S3 of FIG. 8, the sound
ステップS24からステップS25へ進み、メール作成部51は、通話が終了したか否かの判定を行う。ステップS25において、通話中である(通話が終了していない)と判定された場合は、ステップS21へ戻り、ステップS21乃至ステップS25の処理を繰り返す。
Proceeding from step S24 to step S25, the
また、ステップS25において、通話が終了したと判定された場合、ステップS26へ進み、メール作成部51は、言語音声認識部14から供給されたテキストデータと、情報取得部16から供給された画像をもとにメールを作成し、そのメールのメールデータを通信部52に供給する。
If it is determined in step S25 that the call has ended, the process proceeds to step S26, where the
ここで、メール作成部51は、言語音声認識部14からのテキストデータを、例えば、メールのメール本文とする。また、メール作成部51は、情報取得部16から供給された画像を、メールの添付ファイルとする。添付ファイルとされた画像は、例えば、メールを開いたときのメール本文の背景画像として用いることができる。
Here, the
ステップS26からステップS27へ進み、通信部52は、メール作成部51から供給されたメールデータを、ネットワークを介して通話相手へ送信し、処理を終了する。
Proceeding from step S26 to step S27, the
なお、図12の実施の形態では、通話時に集音される音声を利用してメールを作成するようにしたが、ユーザがメールを作成する操作を行っているときに音声入力部11に入力された音声をもとに、その音声に関連する画像を取得し、その画像を、ユーザが作成したメールに添付するようにしても良い。
In the embodiment shown in FIG. 12, the mail is created using the voice collected during the call. However, when the user performs the operation of creating the mail, the voice is input to the
図13は、図11の携帯電話機50が送信したメール(のメールデータ)を受信した携帯電話機(以下、適宜、受信機という)における、そのメールの表示例を示している。
FIG. 13 shows a display example of the mail on a mobile phone (hereinafter, appropriately referred to as a receiver) that has received the mail (mail data) transmitted by the
図13の一番左は、図11の携帯電話50のユーザが、遊園地にて通話、またはメールを作成した場合において、そのメールを受信した受信機の画面の表示例である。
The leftmost part of FIG. 13 is a display example of the screen of the receiver that has received the mail when the user of the
図13の一番左では、「こんにちは!今日は遊園地に遊びにきています!」のテキストデータとともに、その背景として、遊園地の画像が表示されている。従って受信機のユーザは、携帯電話機50のユーザが遊園地にいることを認識することができる。
In the far left of Figure 13, along with the text data of "Hello! Today has come to play in the amusement park!", As its background, amusement park of the image is displayed. Therefore, the user of the receiver can recognize that the user of the
図13の左から2番目(中央)は、図11の携帯電話50のユーザが、宴会会場にて通話、またはメールを作成した場合において、そのメールを受信した受信機の画面の表示例である。
The second (center) from the left in FIG. 13 is a display example of the screen of the receiver that has received the mail when the user of the
図13の左から2番目では、「今、パーティやっているからおいでよ!!」のテキストデータとともに、その背景として、宴会(パーティ)会場の画像が表示されている。従って受信機のユーザは、携帯電話機50のユーザが受信機のユーザにパーティに来てもらいたいことを希望していることを認識することができる。
In the second from the left in FIG. 13, an image of the banquet hall is displayed as the background along with the text data “Please come to the party now!”. Therefore, the user of the receiver can recognize that the user of the
図13の左から3番目(一番右)は、図11の携帯電話50のユーザが、走行中の自動車内にて通話、またはメールを作成した場合において、そのメールを受信した受信機の画面の表示例である。
The third from the left in FIG. 13 (the rightmost) is the screen of the receiver that has received the mail when the user of the
図13の左から3番目では、「あと15分でそちらに着きます」のテキストデータとともに、その背景として、走行中の車内からみた道路の画像が表示されている。従って受信機のユーザは、携帯電話機50のユーザが走行中の自動車内にいることを認識することができる。
In the third part from the left in FIG. 13, along with text data “I will get there in 15 minutes”, an image of the road viewed from the inside of the running car is displayed as the background. Therefore, the user of the receiver can recognize that the user of the
このように携帯電話機50は、より効果的に通信相手へ情報を伝達することができる。
Thus, the
図14は、本発明を適用したICレコーダシステムの一実施の形態の構成例を示す外観図である。 FIG. 14 is an external view showing a configuration example of an embodiment of an IC recorder system to which the present invention is applied.
ICレコーダ60は、音声を集音し、その集音音声の音源を特定する。さらに、ICレコーダ60は、特定した音源を示す音源情報に基づいて、集音した音声に関連する画像62を取得する。また、ICレコーダ60は、集音音声に含まれる言語音声を音声認識することで、その言語音声をテキストデータに変換し、画像62および集音音声とともに記録する。
The
ここで、画像62としては、例えば、ICレコーダで集音を行った環境を表す画像(例えば、会議室の画像)が取得される。
Here, as the
ICレコーダ60の録音処理により記録された情報を、例えばPC61に出力すると、PC61のディスプレイには、ICレコーダ60で集音された音声に関連する画像62と、集音音声を音声認識することにより得られたテキストデータが表示されたテキスト画面63とが表示される。
When the information recorded by the recording process of the
図15は、図14のICレコーダ60の内部構成例を示すブロック図である。図15において、図1のビデオカメラ10における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
FIG. 15 is a block diagram illustrating an internal configuration example of the
ICレコーダ60は、音声入力部11、音声認識部13、情報取得部16、情報データベース17、記録制御部66、記録媒体67から構成されている。
The
音声入力部11は、音声を集音することにより、音声データを取得し、言語音認識部14、音源特定部15および記録制御部66に供給する。
The
言語音声認識部14は、音声入力部11から供給された音声データを音声認識することにより得られるテキストデータを、記録制御部66に供給する。
The language voice recognition unit 14 supplies text data obtained by voice recognition of the voice data supplied from the
情報取得部16は、音源特定部15により供給された音源情報に基づいて、情報データベース17から取得した情報を、記録制御部66に供給する。
The
記録制御部66は、音声入力部11から供給される音声データを、言語音声認識部14から供給されるテキストデータ、および情報取得部16から供給された情報とともに記録媒体67に記録する制御を行う。記録媒体67としては、例えば、フラッシュメモリ等を用いることができる。
The
なお、図15の実施の形態では、音声認識部13および情報取得部16がICレコーダ60内部に実装されているが、音声認識部13または情報取得部16は、外部に設置された装置(外部装置)に実装し、ICレコーダ60がネットワークを介して外部装置と通信することにより、音声認識部13または情報取得部16が行う処理を外部装置に実行させるようにしても良い。外部装置とは、例えば、PCやサーバなどである。
In the embodiment of FIG. 15, the
また、図15の実施の形態では、情報取得部16が、ICレコーダ60本体に内蔵された情報データベース17から情報を取得するようにしたが、情報取得部16は、ネットワークを介して外部装置から情報を取得するようにしても良いし、ICレコーダ60に着脱可能なリムーバルメディア、例えば、フラッシュメモリなどから情報を取得するようにしても良い。
In the embodiment of FIG. 15, the
図16は、ICレコーダ60の録音処理を説明するフローチャートである。
FIG. 16 is a flowchart for explaining the recording process of the
ステップS41において、音声入力部11は、音声データを取得し、音声認識部13および記録制御部66に供給して、ステップS42へ進む。
In step S41, the
ステップS42において、言語音声認識部14は、音声入力部11から供給された音声データを音声認識することにより、テキストデータに変換し、記録制御部66に供給する。
In step S <b> 42, the language voice recognition unit 14 converts the voice data supplied from the
その後、ステップS43では、図8のステップS3における場合と同様に、音源特定部15が、音声入力部11に入力された音声の音源を特定し、その音源を表す音源情報を情報取得部16に供給してステップS44に進む。ステップS44では、情報取得部16は、音源特定部15から供給された音源情報に基づいて、情報データベース17から、集音音声に関連する画像(例えば、駅のホームの画像など、集音を行った環境をイメージさせる画像)を取得し、情報記録部66に供給する。
Thereafter, in step S43, as in step S3 of FIG. 8, the sound
ステップS44からステップS45へ進み、記録制御部66は、言語音声認識部14から供給されるテキストデータと情報取得部16から供給される画像データを音声データに対応付けて記録媒体67に記憶させ、ステップS41に戻り、録音処理を繰り返す。
Proceeding from step S44 to step S45, the
このようにICレコーダ60は、集音音声を、集音環境をイメージさせる画像とともに記録することで、ユーザが、後に録音内容を確認した際に、内容や録音状況を容易に把握することができる。
As described above, the
また、ICレコーダ60においては、例えば、会議中の様子を録音した場合、録音内容を議事録としてPCに出力することができる。また、ICレコーダ60では、予め登録された音声をもとに、発言者を特定したり、発言時の声の調子から、発言者の感情や、顔の表情を表す画像を付加することも可能である。
Further, in the
図17は、本発明を適用した携帯電話機の他の実施の形態の構成例を示すブロック図である。図17において、図1のビデオカメラ10における場合と対応するの部分には同一の符号を付してあり、その説明は適宜省略する。 FIG. 17 is a block diagram showing a configuration example of another embodiment of a mobile phone to which the present invention is applied. 17, parts corresponding to those in the video camera 10 of FIG. 1 are denoted by the same reference numerals, and description thereof is omitted as appropriate.
携帯電話機80は、音声入力部11、音源特定部15、情報取得部16、情報データベース17、表示制御部81、表示部82から構成されている。
The
情報取得部16は、音源特定部15から供給される音源情報に基づいて、情報データベース17から取得した情報を、表示制御部81へ供給する。
The
表示制御部81は、情報取得部16から供給された情報を表示部82に供給して表示させる。
The display control unit 81 supplies the information supplied from the
表示部82は、例えばLCD(Liquid Crystal Display)などで構成され、表示制御部81からの画像を、いわゆる待ち受け画面の画像として表示する。
The
図17の実施の形態では、音源特定部15および情報取得部16が携帯電話機80内部に実装されているが、音源特定部15または情報取得部16は、外部に設置された装置(外部装置)に実装し、携帯電話機80がネットワークを介して外部装置と通信することにより、音源特定部15または情報取得部16が行う処理を外部装置に実行させるようにしても良い。外部装置とは、例えば、PCやサーバなどである。
In the embodiment of FIG. 17, the sound
また、図17の実施の形態では、情報取得部16が、携帯電話機80本体に内蔵された情報データベース17から情報を取得するようにしたが、情報取得部16は、ネットワークを介して外部装置から情報を取得するようにしても良いし、携帯電話機80に着脱可能なリムーバルメディア、例えば、フラッシュメモリなどから情報を取得するようにしても良い。
In the embodiment of FIG. 17, the
図18は、図17の携帯電話機80が行う、待ち受け画面を表示する待ち受け画面表示処理を示すフローチャートである。
FIG. 18 is a flowchart showing a standby screen display process for displaying a standby screen, which is performed by the
ステップS61において、音声入力部11は、音声データを取得し、音源特定部15へ供給してステップS62へ進む。
In step S61, the
その後、ステップS62では、図8のステップS3における場合と同様に、音源特定部15が、音声入力部11に入力された音声の音源を特定し、その音源を表す音源情報を情報取得部16に供給してステップS63へ進む。ステップS63では、情報取得部16は、音源特定部15により供給された音源情報に基づいて、情報データベース17から、集音音声に関連する画像を取得し、表示制御部81に供給してステップS64に進む。
After that, in step S62, as in step S3 of FIG. 8, the sound
ステップS64において、表示制御部81は、情報取得部16から供給された画像を表示部82へ供給して表示させ、ステップS65へ進む。
In step S64, the display control unit 81 supplies the image supplied from the
ステップS65において、音声入力部11は、現時刻が設定時刻であるか否かの判定を行う。ステップS65において、現時刻が設定時刻でないと判定された場合は継続して時刻の監視を行い、現時刻が設定時刻であると判定された場合には、ステップS61へ戻り、ステップS61乃至ステップS65の処理を繰り返す。
この場合、携帯電話機80では、設定時刻を契機にして(トリガとして)、表示部82に表示される待ち受け画面が切り替えられることになる。
In step S65, the
In this case, in the
なお、設定時刻については、例えば、1時間周期、もしくは、朝(6:00)、昼(12:00)、夜(18:00)、深夜(0:00)などの時刻設定を行うことができる。また、本実施の形態では、時刻に対応して待ち受け画面の表示を切り替えるとしたが、音声入力部11を常にオン状態に保ち、集音音声の変化に合わせて待ち受け画面の表示を切り替えるようにしても良い。
As for the set time, for example, a time period such as 1 hour cycle or morning (6:00), noon (12:00), night (18:00), midnight (0:00) can be set. it can. In the present embodiment, the standby screen display is switched according to the time. However, the
このように携帯電話機80では、一定周期もしくは、設定された時刻、または集音音声の変化などを契機にして待ち受け画面の表示の切り替えが可能である。
As described above, the
図19は、図17の携帯電話機80の表示部82に表示される待ち受け画面の表示例を示す図である。
FIG. 19 is a diagram illustrating a display example of a standby screen displayed on the
例えば、ある時点においてウグイスの鳴き声を集音した場合、携帯電話機80は、集音した音声がウグイスの鳴き声(集音した音声の音源がウグイス)であることを特定し、ウグイスに関連する情報である情報画像91を取得する。そして、携帯電話機80は、表示部82に情報画像91を表示させる。さらに、携帯電話機80は、その後、別の鳥の鳴き声を集音した場合は、その別の鳥に関連する情報である情報画像92を取得し、表示部82の表示を情報画像92に切り替える。
For example, when collecting warbler's calls at a certain point in time, the
なお、図19では、情報画像91および情報画像92には、鳥の画像の他、その鳥の名前(名称)等の鳥に関連する情報も含まれている。
In FIG. 19, the
この場合、携帯電話機80は、図鑑的な役割も果たすことになる。
In this case, the
上記においては、鳥の鳴き声を例に挙げて説明したが、もちろん鳥以外の鳴き声に対しても、また、例えば、自動車や飛行機のエンジン音などに対しても同様の処理を行うことができる。また、携帯電話機80では、その他、例えばある時刻に駅のホームいた場合は、待ち受け画面には駅のホームの画像を表示させることなども可能である。
In the above description, the squeal of a bird has been described as an example. Of course, the same processing can be performed for a squeal other than a bird, and for example, an engine sound of an automobile or an airplane. In addition, in the
なお、例えば、ある一定の時間範囲において表示した画像の履歴を記憶しておくようにすることで、その履歴から、ユーザがある時刻に何処にいたかなどの記憶を思い出すのに役立てることができる。 For example, by storing the history of images displayed in a certain time range, it is possible to use the history to remember memories such as where the user was at a certain time. .
また、表示部82に表示する画像は、ユーザの操作に基づいて、所望のカテゴリに属する画像に制限することが可能である。カテゴリとしては、例えば、風景、動物、自動車などがある。
Further, the images displayed on the
なお、本発明は、ビデオカメラや、ICレコーダ、携帯電話機等の他、PDA(Personal Digital Assistants)などの集音機能を少なくとも備えたポータブル機器、さらには、表示機能も備えたポータブル機器、その他に適用することが可能である。 The present invention is not limited to a video camera, an IC recorder, a mobile phone, a portable device having at least a sound collecting function such as a PDA (Personal Digital Assistants), a portable device having a display function, and the like. It is possible to apply.
上述した一連の処理は、ハードウェアにより実行させることもできるが、ソフトウェアにより実行させることもできる。一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または各種のプログラムをインストールすることで各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータ100などに、記録媒体からインストールされる。
The series of processes described above can be executed by hardware, but can also be executed by software. When a series of processing is executed by software, a program constituting the software can execute various functions by installing a computer incorporated in dedicated hardware or various programs. For example, it is installed from a recording medium in a general-purpose
この記録媒体は、図20に示すように、パーソナルコンピュータ100とは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディスク111(フレキシブルディスクを含む)、光ディスク112(CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)を含む)、光磁気ディスク113(MD(Mini-Disc)(商標)を含む)、若しくは半導体メモリ114などよりなるパッケージメディアにより構成されるだけでなく、コンピュータに予め組み込まれた状態でユーザに提供される、プログラムが記録されているROM102や、記憶部108に含まれるハードディスクなどで構成される。
As shown in FIG. 20, the recording medium is distributed to provide a program to the user separately from the
パーソナルコンピュータ100のCPU101は、パーソナルコンピュータの全体の動作を制御する。また、CPU101は、バス104および入出力インターフェース105を介してユーザからキーボードやマウスなどからなる入力部106から指令が入力されると、それに対応してROM(Read Only Memory)102に格納されているプログラムを実行する。あるいはまた、CPU101は、ドライブ110に接続された磁気ディスク111、光ディスク112、光磁気ディスク113、または半導体メモリ114から読み出され、記憶部108にインストールされたプログラムを、RAM(Random Access Memory)103にロードして実行する。さらに、CPU101は、通信部109を制御して、外部と通信し、データの授受を実行する。
The
なお、上述した一連の処理を実行させるプログラムは、必要に応じてルータ、モデムなどのインターフェースを介して、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の通信媒体を介してコンピュータにインストールされるようにしても良い。 The program for executing the series of processes described above is installed in a computer via a wired or wireless communication medium such as a local area network, the Internet, or digital satellite broadcasting via an interface such as a router or a modem as necessary. You may be made to do.
また、本明細書において、記録媒体に格納されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。 Further, in the present specification, the step of describing the program stored in the recording medium is not limited to the processing performed in chronological order according to the described order, but is not necessarily performed in chronological order. It also includes processes that are executed individually.
10 ビデオカメラ, 11 音声入力部, 12 画像入力部, 13 音声認識部, 14 言語音声認識部, 15 音源特定部, 16 情報取得部, 17 情報データベース, 18 画像編集部, 19 記録制御部, 20 記録媒体, 31 FFT処理部, 32 データ比較部, 33 音源特定データベース, 41 撮影画像, 42 効果画像, 43 合成画像, 46 撮影画像, 47 情報画像, 48 合成画像, 50 携帯電話機, 51 メール作成部, 52 通信部, 60 ICレコーダ, 61 PC, 62 画像, 63 テキスト画面, 66 記録制御部, 67 記録媒体, 80 携帯電話機, 81 表示制御部, 82 表示部, 91 情報画像, 92 情報画像, 100 パーソナルコンピュータ, 101 CPU, 102 ROM, 103 RAM, 104 内部バス, 105 入出力インターフェース, 106 入力部, 107 出力部, 108 記憶部, 109 通信部, 110 ドライブ, 111 磁気ディスク, 112 光ディスク, 113 光磁気ディスク, 114 半導体メモリ DESCRIPTION OF SYMBOLS 10 Video camera, 11 Voice input part, 12 Image input part, 13 Voice recognition part, 14 Language speech recognition part, 15 Sound source specific part, 16 Information acquisition part, 17 Information database, 18 Image editing part, 19 Recording control part, 20 Recording medium, 31 FFT processing section, 32 data comparison section, 33 sound source identification database, 41 captured image, 42 effect image, 43 composite image, 46 captured image, 47 information image, 48 composite image, 50 mobile phone, 51 mail creation section , 52 communication unit, 60 IC recorder, 61 PC, 62 image, 63 text screen, 66 recording control unit, 67 recording medium, 80 mobile phone, 81 display control unit, 82 display unit, 91 information image, 92 information image, 100 Personal computer, 101 CPU, 102 ROM, 103 RAM, 104 internal bus, 105 input / output interface, 106 input section, 107 output section, 108 storage section, 109 communication section, 110 drive, 111 magnetic disk, 112 optical disk, 113 magneto-optical disk, 114 semiconductor memory
Claims (13)
前記音源特定手段により特定された前記音源を示す音源情報に基づいて、前記音声に関連する情報を取得する情報取得手段と
を備えることを特徴とする情報処理装置。 A sound source identifying means for identifying the sound source of the input voice;
An information processing apparatus comprising: information acquisition means for acquiring information related to the sound based on sound source information indicating the sound source specified by the sound source specifying means.
ことを特徴とする請求項1に記載の情報処理装置。 The information processing apparatus according to claim 1, further comprising a recording unit that records the information acquired by the information acquisition unit together with the sound.
前記記録手段は、前記テキストデータも前記音声とともに記録する
ことを特徴とする請求項2に記載の情報処理装置。 Language speech recognition means for recognizing language speech included in the speech and outputting text data corresponding to the language speech;
The information processing apparatus according to claim 2, wherein the recording unit records the text data together with the voice.
前記撮影手段により取得された前記画像を、前記情報取得手段により取得された前記情報を用いて編集する画像編集手段と、
前記画像編集手段による編集により得られる編集画像を前記音声とともに記録する記録手段と
をさらに備えることを特徴とする請求項1に記載の情報処理装置。 Photographing means for photographing an image;
Image editing means for editing the image acquired by the photographing means using the information acquired by the information acquiring means;
The information processing apparatus according to claim 1, further comprising: a recording unit that records an edited image obtained by editing by the image editing unit together with the sound.
前記画像編集手段は、前記画像を、前記テキストデータも用いて編集する
ことを特徴とする請求項4に記載の情報処理装置。 Language speech recognition means for recognizing language speech included in the speech and outputting text data corresponding to the language speech;
The information processing apparatus according to claim 4, wherein the image editing unit edits the image using the text data.
ことを特徴とする請求項1に記載の情報処理装置。 The information processing apparatus according to claim 1, further comprising: a mail creation unit that creates e-mail data using the information acquired by the information acquisition unit.
前記メール作成手段は、前記電子メールのデータを、前記テキストデータも用いて作成する
ことを特徴とする請求項6に記載の情報処理装置。 Language speech recognition means for recognizing language speech included in the speech and outputting text data corresponding to the language speech;
The information processing apparatus according to claim 6, wherein the e-mail creating unit creates the e-mail data using the text data.
ことを特徴とする請求項1に記載の情報処理装置。 The information processing apparatus according to claim 1, further comprising display means for displaying information acquired by the information acquisition means.
ことを特徴とする請求項1に記載の情報処理装置。 The information processing apparatus according to claim 1, wherein the sound source specifying unit specifies the sound source by causing the external apparatus connected via a network to process the sound.
ことを特徴とする請求項1に記載の情報処理装置。 The information processing apparatus according to claim 1, wherein the information acquisition unit acquires the information by performing communication via a network.
前記音源特定ステップの処理により特定された前記音源を示す音源情報に基づいて、前記音声に関連する情報を取得する情報取得ステップと
を含むことを特徴とする情報処理方法。 A sound source identification step for identifying the sound source of the input voice;
An information acquisition method comprising: an information acquisition step of acquiring information related to the sound based on sound source information indicating the sound source specified by the sound source specifying step.
前記音源特定ステップの処理により特定された前記音源を示す音源情報に基づいて、前記音声に関連する情報を取得する情報取得ステップと
を含むことを特徴とするコンピュータが読み取り可能なプログラムが記録されている記録媒体。 A sound source identification step for identifying the sound source of the input voice;
An information acquisition step of acquiring information related to the sound based on sound source information indicating the sound source specified by the processing of the sound source specifying step. Recording medium.
前記音源特定ステップの処理により特定された前記音源を示す音源情報に基づいて、前記音声に関連する情報を取得する情報取得ステップと
を含む処理をコンピュータに実行させることを特徴とするプログラム。 A sound source identification step for identifying the sound source of the input voice;
An information acquisition step of acquiring information related to the sound based on sound source information indicating the sound source specified by the processing of the sound source specifying step.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004040908A JP2005234074A (en) | 2004-02-18 | 2004-02-18 | Apparatus and method for information processing, recording medium, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004040908A JP2005234074A (en) | 2004-02-18 | 2004-02-18 | Apparatus and method for information processing, recording medium, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005234074A true JP2005234074A (en) | 2005-09-02 |
Family
ID=35017115
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004040908A Pending JP2005234074A (en) | 2004-02-18 | 2004-02-18 | Apparatus and method for information processing, recording medium, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005234074A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015053603A (en) * | 2013-09-06 | 2015-03-19 | 東日本電信電話株式会社 | Communication system, communication method, and computer program |
JP2015212731A (en) * | 2014-05-01 | 2015-11-26 | 日本放送協会 | Acoustic event recognition device and program |
JP2018525664A (en) * | 2015-06-30 | 2018-09-06 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | Method and apparatus for associating and analyzing noise |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09179579A (en) * | 1995-12-25 | 1997-07-11 | Casio Comput Co Ltd | Retrieval device |
JP2000322436A (en) * | 1999-05-13 | 2000-11-24 | Nippon Telegr & Teleph Corp <Ntt> | Cyber-illustrated reference book retrieval system |
JP2001086497A (en) * | 1999-09-10 | 2001-03-30 | Mega Chips Corp | Information communication system |
JP2001268421A (en) * | 2000-03-21 | 2001-09-28 | Fuji Photo Film Co Ltd | Electronic camera, information acquisition system and print ordering system |
JP2002041502A (en) * | 2000-07-28 | 2002-02-08 | Olympus Optical Co Ltd | System and method for docuemnt preparation |
JP2002176619A (en) * | 2000-09-12 | 2002-06-21 | Matsushita Electric Ind Co Ltd | Media editing method and apparatus thereof |
JP2003348411A (en) * | 2002-05-27 | 2003-12-05 | Olympus Optical Co Ltd | Camera for permitting voice input |
JP2004032430A (en) * | 2002-06-26 | 2004-01-29 | Fujitsu Ltd | Control device and control program |
JP2005109775A (en) * | 2003-09-30 | 2005-04-21 | Casio Comput Co Ltd | Apparatus and method for decorating image and portable communication apparatus |
-
2004
- 2004-02-18 JP JP2004040908A patent/JP2005234074A/en active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09179579A (en) * | 1995-12-25 | 1997-07-11 | Casio Comput Co Ltd | Retrieval device |
JP2000322436A (en) * | 1999-05-13 | 2000-11-24 | Nippon Telegr & Teleph Corp <Ntt> | Cyber-illustrated reference book retrieval system |
JP2001086497A (en) * | 1999-09-10 | 2001-03-30 | Mega Chips Corp | Information communication system |
JP2001268421A (en) * | 2000-03-21 | 2001-09-28 | Fuji Photo Film Co Ltd | Electronic camera, information acquisition system and print ordering system |
JP2002041502A (en) * | 2000-07-28 | 2002-02-08 | Olympus Optical Co Ltd | System and method for docuemnt preparation |
JP2002176619A (en) * | 2000-09-12 | 2002-06-21 | Matsushita Electric Ind Co Ltd | Media editing method and apparatus thereof |
JP2003348411A (en) * | 2002-05-27 | 2003-12-05 | Olympus Optical Co Ltd | Camera for permitting voice input |
JP2004032430A (en) * | 2002-06-26 | 2004-01-29 | Fujitsu Ltd | Control device and control program |
JP2005109775A (en) * | 2003-09-30 | 2005-04-21 | Casio Comput Co Ltd | Apparatus and method for decorating image and portable communication apparatus |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015053603A (en) * | 2013-09-06 | 2015-03-19 | 東日本電信電話株式会社 | Communication system, communication method, and computer program |
JP2015212731A (en) * | 2014-05-01 | 2015-11-26 | 日本放送協会 | Acoustic event recognition device and program |
JP2018525664A (en) * | 2015-06-30 | 2018-09-06 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | Method and apparatus for associating and analyzing noise |
US11003709B2 (en) | 2015-06-30 | 2021-05-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Method and device for associating noises and for analyzing |
US11880407B2 (en) | 2015-06-30 | 2024-01-23 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Method and device for generating a database of noise |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4175390B2 (en) | Information processing apparatus, information processing method, and computer program | |
JP5225847B2 (en) | Information processing terminal, music information generation method, and program | |
JP2007041988A (en) | Information processing device, method and program | |
CN108922525B (en) | Voice processing method, device, storage medium and electronic equipment | |
JP2011217197A (en) | Electronic apparatus, reproduction control system, reproduction control method, and program thereof | |
WO2013024704A1 (en) | Image-processing device, method, and program | |
WO2005094437A2 (en) | System and method for automatically cataloguing data by utilizing speech recognition procedures | |
CN113409764B (en) | Speech synthesis method and device for speech synthesis | |
JP4192703B2 (en) | Content processing apparatus, content processing method, and program | |
CN103973955A (en) | Information processing method and electronic device | |
JP4812733B2 (en) | Information editing apparatus, information editing method, information editing program, and recording medium recording the program | |
JP2017064853A (en) | Robot, content deciding device, content deciding method, and program | |
Kay et al. | Introduction: Soundings and Soundscapes | |
JP2006279111A (en) | Information processor, information processing method and program | |
JP2005234074A (en) | Apparatus and method for information processing, recording medium, and program | |
JP2003209778A (en) | Automatic process for enriching digital image | |
JPH11266422A (en) | Broadcast program management system, broadcast program management method, and recording medium recorded with broadcast program management processing program | |
CN113056908B (en) | Video subtitle synthesis method and device, storage medium and electronic equipment | |
CN111696566A (en) | Voice processing method, apparatus and medium | |
JP2006267934A (en) | Minutes preparation device and minutes preparation processing program | |
JP4744373B2 (en) | Portable information terminal | |
JP2007251581A (en) | Voice transmission terminal and voice reproduction terminal | |
CN117579767A (en) | Virtual method for emotion appeal | |
CN111696565B (en) | Voice processing method, device and medium | |
JP2005043628A (en) | Dialog recorder and dialog recording method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060823 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091117 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091124 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100118 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100608 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100802 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110301 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110705 |