JP5591428B2 - Automatic recording device - Google Patents
Automatic recording device Download PDFInfo
- Publication number
- JP5591428B2 JP5591428B2 JP2014519697A JP2014519697A JP5591428B2 JP 5591428 B2 JP5591428 B2 JP 5591428B2 JP 2014519697 A JP2014519697 A JP 2014519697A JP 2014519697 A JP2014519697 A JP 2014519697A JP 5591428 B2 JP5591428 B2 JP 5591428B2
- Authority
- JP
- Japan
- Prior art keywords
- content
- unit
- information storage
- recognition
- storage unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001514 detection method Methods 0.000 claims description 24
- 239000000284 extract Substances 0.000 claims description 4
- 238000000034 method Methods 0.000 description 25
- 238000010586 diagram Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000007429 general method Methods 0.000 description 4
- 108090000237 interleukin-24 Proteins 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 101100018027 Pisum sativum HSP70 gene Proteins 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
- G11B27/034—Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
- G11B20/10527—Audio or video recording; Data buffering arrangements
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N9/00—Details of colour television systems
- H04N9/79—Processing of colour television signals in connection with recording
- H04N9/80—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
- H04N9/82—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
- H04N9/8205—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
- G11B20/10527—Audio or video recording; Data buffering arrangements
- G11B2020/10537—Audio or video recording
- G11B2020/10546—Audio or video recording specifically adapted for audio data
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
Description
この発明は、放送データを音声認識して得られた認識結果から情報を自動的に抽出して記録する自動記録装置に関するものである。 The present invention relates to an automatic recording apparatus that automatically extracts information from a recognition result obtained by voice recognition of broadcast data and records the information.
例えば特許文献1には、放送局より放送される放送データを分析して楽曲等のコンテンツデータと会話とに分類して抽出し、抽出したコンテンツデータを数値化して、その数値化されたコンテンツデータを外部機器に送信して照合し、そのコンテンツデータに対応するアーティスト名等の識別データを受信して、その受信した識別データを抽出したコンテンツデータに対応付けて保存するデータ処理装置が開示されている。
For example, in
しかしながら、例えば特許文献1のような従来のデータ処理装置は、コンテンツデータの識別を行うために、録音したコンテンツデータの特徴量を外部機器へ送信して識別データを受信する必要があり、外部機器との通信が確立しない場合にはデータ処理を行うことができない、という課題があった。また、新曲などの新規のコンテンツに対応するためには外部機器が持つデータベースを更新する必要があり、また、多くのコンテンツを識別可能とするためには、外部機器が持つコンテンツのデータ数を増やさなければいけない、という課題もあった。
However, for example, a conventional data processing apparatus such as
この発明は、上記のような課題を解決するためになされたものであり、放送データから抽出されたコンテンツの情報を外部機器へ送信、受信することなく、そのコンテンツの識別データを取得し、当該識別データをコンテンツと対応付けて自動的に記録することのできる自動記録装置を提供することを目的とする。 The present invention has been made to solve the above-described problems, and acquires the identification data of the content without transmitting or receiving the information of the content extracted from the broadcast data to an external device. It is an object of the present invention to provide an automatic recording apparatus capable of automatically recording identification data in association with content.
上記目的を達成するため、この発明の自動記録装置は、放送データから、コンテンツおよび当該コンテンツの識別データを含む音声を検知して取得する音声取得部と、前記コンテンツを紹介する際の文言を記憶する定型文記憶部と、前記音声取得部により取得された音声データを認識するとともに、当該認識結果と前記定型文記憶部に記憶されている文言とに基づいて、前記コンテンツの識別データを抽出して出力する音声認識部と、前記音声認識部から前記コンテンツの識別データを受け取った場合に、前記コンテンツの開始時点および終了時点を検知するよう指示する制御部と、前記制御部からの指示にしたがって、前記音声取得部により取得された音声データから前記コンテンツの開始時点および終了時点を検知するコンテンツ区間検出部と、前記コンテンツ区間検出部により検出された開始時点と終了時点の間のコンテンツ区間におけるコンテンツを記録する映像音声記録部と、少なくとも前記映像音声記録部により記録されたコンテンツと、前記コンテンツの識別データとを記憶する情報記憶部とを備え、前記制御部は、前記コンテンツの識別データを前記映像音声記録部により記録されたコンテンツと対応付けて前記情報記憶部に保存することを特徴とする。 In order to achieve the above object, an automatic recording apparatus according to the present invention stores an audio acquisition unit that detects and acquires audio including broadcast content and content identification data, and language used when introducing the content. And recognizing the voice data acquired by the voice acquisition unit, and extracting the identification data of the content based on the recognition result and the words stored in the fixed sentence storage unit A voice recognition unit that outputs the content, a control unit that instructs to detect a start time and an end time of the content when the identification data of the content is received from the voice recognition unit, and an instruction from the control unit , Content section detection for detecting the start time and end time of the content from the audio data acquired by the audio acquisition unit. A content, a video / audio recording unit that records content in a content interval between a start time point and an end time point detected by the content interval detection unit, content recorded by at least the video / audio recording unit, and identification of the content An information storage unit that stores data, and the control unit stores the identification data of the content in the information storage unit in association with the content recorded by the video / audio recording unit.
この発明の自動記録装置によれば、放送データを音声認識して得られた認識結果から、楽曲などのコンテンツに対応する曲名やアーティスト名等の識別データを抽出することにより、コンテンツの情報を外部機器へ送信、受信することなく、そのコンテンツの識別データを受け取り、当該識別データをコンテンツと対応付けて自動的に記録することができる。 According to the automatic recording device of the present invention, content information is externally extracted by extracting identification data such as a song name and an artist name corresponding to content such as music from a recognition result obtained by voice recognition of broadcast data. The identification data of the content can be received without being transmitted or received to the device, and the identification data can be automatically recorded in association with the content.
以下、この発明の実施の形態について、図面を参照しながら詳細に説明する。
実施の形態1.
図1は、この発明の実施の形態1による自動記録装置の一例を示すブロック図である。この実施の形態では、ラジオ、テレビなどで放送される放送データから、コンテンツおよび当該コンテンツの識別データを音声取得、音声認識して記録する自動記録装置として、音楽コンテンツ(楽曲)とそのコンテンツ(楽曲)の識別データである曲名とアーティスト名を対応付けて保存する場合を例として説明する。なお、以下の実施の形態においても同様とする。Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
FIG. 1 is a block diagram showing an example of an automatic recording apparatus according to
この自動記録装置は、音声取得部1、音声認識部2、定型文記憶部3、制御部4、情報記憶部5、コンテンツ区間検出部6、映像音声記録部7を備えている。また、この実施の形態1では図示は省略したが、この自動記録装置は、キーやタッチパネル等による入力信号を取得する入力部8や、データを表示または音声により出力する出力部9も備えている(後述する実施の形態4における図9参照)。
The automatic recording apparatus includes a
そして、この自動記録装置は、ラジオやテレビなどのオーディオ機器から出力される放送データから音声を取得して認識し、当該認識した結果から、放送されている楽曲(コンテンツ)の名称(曲名)やアーティストの名称(アーティスト名)などの識別データを抽出し、楽曲(コンテンツ)に対応付けて曲名やアーティスト名などの識別データを自動的に情報記憶部に記録するものである。 The automatic recording device acquires and recognizes sound from broadcast data output from an audio device such as a radio or a television, and based on the recognized result, the name (song name) of the song (content) being broadcast or Identification data such as an artist name (artist name) is extracted, and identification data such as a song name and artist name is automatically recorded in the information storage unit in association with the music (content).
音声取得部1は、放送データから、コンテンツおよび当該コンテンツの識別データを含む音声を検知して取得する。この際、オーディオ機器から出力される音声をライン入力などで取得する。アナログで取得した場合はA/D変換して、例えばPCM(Pulse Code Modulation)形式などのデジタル形式に変換して取得する。
The
音声認識部2は、認識辞書(図示せず)を有し、音声取得部1により取得された音声データを認識する。具体的には、搭乗者発話等の内容に該当する音声区間を検出し、当該音声区間の音声データの特徴量を抽出し、その特徴量に基づいて認識辞書を用いて認識処理を行い、音声認識結果を文字列で出力する。なお、認識処理としては、例えばHMM(Hidden Markov Model)法のような一般的な方法を用いて行えばよいため、ここでは説明を省略する。また、音声認識部2は、後述のようにネットワーク上のサーバにあるものとしてもよい。
The
ここで利用する音声認識は予め認識辞書で登録した認識語彙を認識する構文型の音声認識と、「あ」「い」「う」「え」「お」などの一文字の音節を連続で認識することにより、任意の文字列を認識可能とする大語彙連続音声認識の両方を併用する。なお、認識全てを大語彙連続認識で行い、認識結果を形態素解析する方法をとってもよい。形態素解析については例えばHMM法のような一般的な方法を用いて行えばよいため、ここでは説明を省略する。 The speech recognition used here is syntactic speech recognition that recognizes recognition vocabulary registered in the recognition dictionary in advance, and continuous recognition of single-character syllables such as “A”, “I”, “U”, “E”, “O”. Thus, both large vocabulary continuous speech recognition enabling recognition of an arbitrary character string are used in combination. A method of performing all recognition by large vocabulary continuous recognition and performing a morphological analysis on the recognition result may be used. The morphological analysis may be performed by using a general method such as the HMM method, and thus description thereof is omitted here.
定型文記憶部3は、楽曲(コンテンツ)を紹介する際の文言として、例えば図2に示すように「次の曲は<アーティスト名>の<曲名>です」、「お聴きいただいたのは<アーティスト名>の<曲名>です」のようなディスクジョッキーやプレゼンテーターなどが曲を紹介する時によく使われる文言を記憶している。以下、これを曲紹介文言と呼ぶ。
For example, as shown in FIG. 2, the fixed
そして前述の音声認識部2は、音声取得部1により取得された音声データを認識するとともに、定型文記憶部3を参照して、すなわち、音声データを認識した認識結果と定型文記憶部3に記憶されている文言とに基づいて、楽曲(コンテンツ)の曲名、アーティスト名など(識別データ)を抽出して出力する。具体的な抽出方法としては、定型文記憶部3に記憶されている曲紹介文言については<アーティスト名>と<曲名>の部分を大語彙連続認識で認識して抽出し、それ以外の部分を構文型音声認識で認識する。
The
制御部4は、音声認識部2により出力された認識結果である曲名、アーティスト名など(識別データ)の文字列を入力とし、その楽曲(コンテンツ)の曲名、アーティスト名など(識別データ)を受け取った場合に、後述するコンテンツ区間検出部6へ動作開始の命令を出力、すなわち、楽曲(コンテンツ)の開始時点および終了時点を検知するよう指示を行う。
The
情報記憶部5は、例えば図3に示すように、少なくとも楽曲(コンテンツ)と、その楽曲(コンテンツ)のアーティスト名や曲名(識別データ)とを記憶している。なお、この図3に示すように、アーティスト名、曲名(識別データ)を楽曲(コンテンツ)に対応付けて保存するとともに、その楽曲(コンテンツ)を取得(録音)した取得日時なども関連付けて保存するようにしてもよい。また、図3(a)に示すように、曲名ごとのデータとしてもよいし、図3(b)に示すように、アーティストごとにまとめたデータであってもよい。なお、情報記憶部5は、ハードディスクでもよいし、SDカードなどであっても構わない。
As shown in FIG. 3, for example, the
コンテンツ区間検出部6は、制御部4からの指示にしたがって、音声取得部1により取得された音声データから楽曲(コンテンツ)の開始時点および終了時点を検知する。具体的には、音声取得部1から出力されるデジタル音声データを入力とし、入力されたデジタル音声データが持つ周波数の特徴量などを利用して、音声データの中の楽曲(コンテンツ)と会話(コンテンツ以外の部分)の境界区間を検知する。そして、楽曲の開始区間を検知すると、後述する映像音声記録部7に記録開始の命令を送り、楽曲の終了区間を検知すると、映像音声記録部7に記録終了の命令を送る。なお、開始区間や終了区間の検知には時間−周波数解析のような一般的な方法を用いて行えばよいため、ここでは説明を省略する。
The content
映像音声記録部7は、コンテンツ区間検出部6の命令により、すなわち、コンテンツ区間検出部6により検出された開始時点と終了時点の間のコンテンツ区間における楽曲(コンテンツ)部分のみを記録し、情報記憶部5に保存する。
そして前述の制御部4は、音声認識部2から受け取った曲名とアーティスト名(識別データ)を映像音声記録部7により記録された楽曲(コンテンツ)と対応付けて情報記憶部5に保存する。The video /
The
次に、図4に示すフローチャートを用いて、実施の形態1の自動記録装置の動作を説明する。
まず、音声取得部1は、オーディオ機器より入力された音声をライン入力で取得する(ステップST11)。この時、オーディオ機器から入力された音声がアナログ形式の場合はA/D変換を行い、例えばPCM形式に変換してデジタルデータとして取得する。
次に、音声認識部2は、音声取得部1により取得された音声データを認識し、認識結果を文字列で出力する。この際、定型文記憶部3と比較した上で、大語彙連続音声認識を行うことにより、曲名およびアーティスト名を抽出する(ステップST12)。Next, the operation of the automatic recording apparatus according to the first embodiment will be described with reference to the flowchart shown in FIG.
First, the
Next, the
制御部4は、音声認識部2から曲名・アーティスト名を受け取ると、コンテンツ区間検出部6を動作させる指示を行う。コンテンツ区間検出部6は、音声取得部1により取得されたオーディオ音声に対し信号処理技術を用いて周波数などの特徴量を抽出し、楽曲部分の開始区間を検知して(ステップST13)、映像音声記録部7に記録開始の命令を送る。
そして、映像音声記録部7は、コンテンツ区間検出部6からの命令を受けて、ステップST13で検知された楽曲の開始位置から楽曲の記録を開始する(ステップST14)。Upon receiving the song title / artist name from the
Then, the video /
また、コンテンツ区間検出部6は、取得されたオーディオ音声に対し信号処理技術を用いて特徴量を抽出し、楽曲部分の終了区間を検知して(ステップST15)、映像音声記録部7に記録終了の命令を送る。
そして、映像音声記録部7は、コンテンツ区間検出部6からの命令を受けて楽曲の記録を停止し(ステップST16)、その録音された楽曲を情報記憶部5に保存する(ステップST17)。Further, the content
The video /
最後に、制御部4は、ステップST12で抽出されて音声認識部2から取得した曲名・アーティスト名を、ステップST17で保存された楽曲と関連付けて、情報記憶部5に保存する(ステップST18)。
この結果、例えば図3に示すような関連付けテーブルが保存される。Finally, the
As a result, for example, an association table as shown in FIG. 3 is stored.
このようにして、ラジオやテレビなどの放送データだけに基づいて、大語彙連続音声認識を利用した音声認識を行うことにより、コンテンツの識別データを参照するための外部データベースが不要となり、当該外部データベースの作成、更新の手間も省くことができ、さらに、その外部データベースとの通信も不要となる。
また、識別データと、コンテンツ開始部分が抽出できたことを条件にコンテンツを記録するため、記憶媒体の容量を圧迫せずに曲部分のみを効率的に保存することができる。In this way, by performing speech recognition using large vocabulary continuous speech recognition based only on broadcast data such as radio and television, an external database for referring to content identification data becomes unnecessary, and the external database This eliminates the need to create and update the database, and further eliminates the need for communication with the external database.
Further, since the content is recorded on the condition that the identification data and the content start portion can be extracted, it is possible to efficiently save only the music portion without reducing the capacity of the storage medium.
以上のように、この実施の形態1によれば、放送データを音声認識して得られた認識結果から、楽曲などのコンテンツに対応する曲名やアーティスト名等の識別データを抽出することにより、コンテンツの情報を外部機器へ送信、受信することなく、そのコンテンツの識別データを受け取り、当該識別データをコンテンツと対応付けて自動的に記録することができる。 As described above, according to the first embodiment, by extracting identification data such as a song name and an artist name corresponding to a content such as a song from the recognition result obtained by voice recognition of the broadcast data, the content can be obtained. The identification data of the content can be received without being transmitted or received to an external device, and the identification data can be automatically recorded in association with the content.
実施の形態2.
図5は、この発明の実施の形態2による自動記録装置の一例を示すブロック図である。なお、実施の形態1で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態2では、実施の形態1と比べると、制御部4が情報記憶部5に保存されている情報を参照することにより、ユーザの嗜好にあったコンテンツのみを記録するものである。
FIG. 5 is a block diagram showing an example of an automatic recording apparatus according to
情報記憶部5には、例えば図6に示すような形式で、音声認識部2から出力されたアーティスト名、曲名(識別データ)が楽曲(コンテンツ)に対応付けて保存されているだけではなく、それぞれの楽曲(コンテンツ)やそのアーティストの楽曲(コンテンツ)が取得された回数を含むデータが保存されており、この情報記憶部5に記憶されているデータは制御部4より参照可能とする。
In the
そして制御部4は、音声認識部2から出力された曲名、アーティスト名など(識別データ)の文字列を入力とし、当該曲名とアーティスト名(識別データ)を情報記憶部5に記録するとともに、情報記憶部5に記憶されている当該データ(取得回数を含む当該コンテンツに関する情報)を参照することにより、そのコンテンツを取得した回数が所定の回数以上である場合にのみ、コンテンツ区間検出部6へ動作開始の命令を出力する。
Then, the
次に、図7に示すフローチャートを用いて実施の形態2における自動記録装置の動作を説明する。
まず、音声取得部1は、オーディオ機器より入力された音声をライン入力で取得する(ステップST21)。この時、オーディオ機器から入力された音声がアナログ形式の場合はA/D変換を行い、例えばPCM形式に変換してデジタルデータとして取得する。
次に、音声認識部2は、音声取得部1により取得された音声データを認識し、認識結果を文字列で出力する。この際、定型文記憶部3と比較した上で、大語彙連続音声認識を行うことにより、曲名およびアーティスト名を抽出する(ステップST22)。Next, the operation of the automatic recording apparatus according to the second embodiment will be described using the flowchart shown in FIG.
First, the
Next, the
制御部4は、音声認識部2から曲名・アーティスト名を取得すると、取得した曲名・アーティスト名について情報記憶部5に記憶されているデータを参照し、当該曲名・アーティスト名のコンテンツを取得した回数が所定の回数以上である場合(ステップST23のYESの場合)には、コンテンツ区間検出部6を動作させ、ステップST24〜ST29の処理を行う。
なお、ステップST24〜ST29の処理については、実施の形態1における図4に示したステップST13〜ST18の処理と同一であるため、説明を省略する。When the
In addition, about the process of step ST24-ST29, since it is the same as the process of step ST13-ST18 shown in FIG. 4 in
一方、ステップST23において、ステップST22で抽出された曲名・アーティスト名の楽曲の取得回数が所定の回数未満である場合(ステップST23のNOの場合)には、制御部4は音声認識部2から出力された曲名・アーティスト名を、その取得回数を1回追加して情報記憶部5に保存する(ステップST30)。
On the other hand, in step ST23, when the number of acquisitions of the song name / artist name extracted in step ST22 is less than a predetermined number (in the case of NO in step ST23), the
このように、既に所定の回数以上取得している曲名・アーティスト名の楽曲、すなわち、ユーザの嗜好に合ったコンテンツのみを記録することができるので、記憶媒体の容量を圧迫せずに曲部分のみを効率的に記録することができる。 As described above, since only a song title / artist name song that has been acquired more than a predetermined number of times, that is, only a content that meets the user's preference, can be recorded, only the song portion is stored without reducing the capacity of the storage medium. Can be recorded efficiently.
以上のように、この実施の形態2によれば、実施の形態1における効果に加え、ユーザの嗜好に合ったコンテンツのみを記録することができるので、記憶媒体の容量を圧迫せずに曲部分のみを効率的に記録することができる。 As described above, according to the second embodiment, in addition to the effects in the first embodiment, only content that meets the user's preference can be recorded. Only can be recorded efficiently.
実施の形態3.
この発明の実施の形態3による自動記録装置の一例を示すブロック図は、実施の形態2の図5に示したブロック図と同じであるため、図示および説明を省略する。そして、以下に示す実施の形態3では、実施の形態2と比べると、楽曲(コンテンツ)の区間検出開始の命令を行うかどうかを、その楽曲(コンテンツ)がユーザの嗜好に合ったものであるか否かによるのではなく、音声認識の尤度によって決定するものである。
なお、この実施の形態3では、音声認識部2が認識結果を制御部4に出力する際に、その認識結果とともにその認識の尤度も出力する。
The block diagram showing an example of the automatic recording apparatus according to the third embodiment of the present invention is the same as the block diagram shown in FIG. And in
In the third embodiment, when the
次に、図8に示すフローチャートを用いて実施の形態3における自動記録装置の動作を説明する。
まず、音声取得部1は、オーディオ機器より入力された音声をライン入力で取得する(ステップST31)。この時、オーディオ機器から入力された音声がアナログ形式の場合はA/D変換を行い、例えばPCM形式に変換してデジタルデータとして取得する。
次に、音声認識部2は、音声取得部1により取得された音声データを認識し、認識結果を文字列で出力する。この際、定型文記憶部3と比較した上で、大語彙連続音声認識を行うことにより、曲名およびアーティスト名を抽出する(ステップST32)。Next, the operation of the automatic recording apparatus according to the third embodiment will be described using the flowchart shown in FIG.
First, the
Next, the
また、音声認識部2により認識結果が出力される際に、音声認識部2において認識された音声の確からしさ(もっともらしさ)を示す尤度もともに出力され、制御部4は、その認識の尤度も同時に取得し、当該認識の尤度が所定の値以上である場合(ステップST33のYESの場合)にのみ、コンテンツ区間検出部6を動作させ、ステップST34〜ST39の処理を行う。
なお、ステップST34〜ST39の処理については、実施の形態1における図4に示したステップST13〜ST18の処理と同一であるため、説明を省略する。In addition, when the recognition result is output by the
In addition, about the process of step ST34-ST39, since it is the same as the process of step ST13-ST18 shown in FIG. 4 in
一方、ステップST33において、音声認識の尤度が所定の値未満である場合(ステップST33のNOの場合)には、そのまま処理を終了する。 On the other hand, in step ST33, when the likelihood of speech recognition is less than a predetermined value (NO in step ST33), the process is terminated as it is.
ここで、尤度の具体例について説明する。例えば、大語彙連続音声認識において、認識された音声一音ずつの確からしさ(もっともらしさ)は、放送データから聞こえてくる司会者などの滑舌の良さや雑音の少なさによって高くなるものであり、通常は60〜70%以上の尤度であれば、その音(文字)が出力されたと判断される。そこで、ステップST33における所定の値として、例えば80%を設定しておくことにより、正しく音声認識された場合にのみステップST34以降の処理に進むようにする。 Here, a specific example of likelihood will be described. For example, in large vocabulary continuous speech recognition, the probability (reliability) of each recognized speech is increased by the goodness of the tongue and the noise from the moderators heard from the broadcast data. Usually, if the likelihood is 60 to 70% or more, it is determined that the sound (character) is output. Therefore, for example, 80% is set as the predetermined value in step ST33 so that the process proceeds to step ST34 and subsequent steps only when the voice is correctly recognized.
また、例えば、定型文記憶部3に記憶されている曲紹介文言(図2)と比較した構文型音声認識において、一致する文言が何%あるかによって、認識された音声が曲紹介であるか否かという尤度を算出するようにしてもよい。この場合にも、ステップST33における所定の値としては、例えば80%と設定しておくことにより、曲紹介の構文が正しく音声認識された場合にのみステップST34以降の処理に進むようにする。
Also, for example, in syntactic speech recognition compared with the song introduction text (FIG. 2) stored in the fixed
これにより、低い尤度の音声認識結果に基づいて、誤ってコンテンツ区間検出部6が動作することを防ぐことができるとともに、誤った曲名やアーティスト名(識別データ)を関連付けた楽曲(コンテンツ)を保存してしまうことを防ぐことができる。
Accordingly, it is possible to prevent the content
以上のように、この実施の形態3によれば、実施の形態1における効果に加え、音声認識の尤度が所定の値以上である場合のみコンテンツの識別データとコンテンツとを記録することができるので、誤った識別データを関連付けたコンテンツを保存してしまい、記憶媒体の容量を圧迫するのを防ぐことができる。 As described above, according to the third embodiment, in addition to the effects in the first embodiment, content identification data and content can be recorded only when the likelihood of speech recognition is a predetermined value or more. Therefore, it is possible to prevent the content associated with the wrong identification data from being saved and press the capacity of the storage medium.
実施の形態4.
図9は、この発明の実施の形態4による自動記録装置の一例を示すブロック図である。なお、実施の形態1〜3で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。この実施の形態4のブロック図には、実施の形態1〜3では図示を省略した、キーやタッチパネル等による入力信号を取得することによりユーザからの操作入力を受け付ける入力部8と、データを表示または音声出力することによりユーザにデータを提示する出力部9も図示されており、以下に示す実施の形態4では、これらの入力部8および出力部9を介して、ユーザが楽曲(コンテンツ)の保存の要否を選択することができるものである。
FIG. 9 is a block diagram showing an example of an automatic recording apparatus according to
そして制御部4は、音声認識部2から出力された曲名、アーティスト名など(識別データ)の文字列を取得すると、それらの曲名、アーティスト名など(識別データ)を出力部9を介して提示することにより保存の要否をユーザに確認し、入力部8を介してユーザからの入力を受け付けることにより、楽曲(コンテンツ)の保存要否を判断する。具体的には、入力部を介して保存要である旨の入力を受け付けた場合には、楽曲(コンテンツ)の曲名、アーティスト名など(識別データ)を楽曲(コンテンツ)に対応付けて情報記憶部5に保存し、保存否である旨の入力を受け付けた場合には、楽曲(コンテンツ)の曲名、アーティスト名など(識別データ)のみを保存する。
When the
入力部8は、ユーザの意思を入力するものであり、例えばボタンやタッチディスプレイなどでもよいし、マイク等による音声認識を用いた音声入力や、ジェスチャー入力によるものでもよい。また、それらを組み合わせたものであっても構わない。
出力部9は、制御部4により出力された曲名、アーティスト名(識別データ)を、例えば合成音声を利用して出力するものでもよいし、ディスプレイ画面に文字を表示するものでもよい。また、それら両方に出力しても構わない。The
The output unit 9 may output the song title and artist name (identification data) output by the
次に、図10に示すフローチャートを用いて実施の形態4における自動記録装置の動作を説明する。
ステップST41〜ST46の処理については、実施の形態1における図4に示したステップST11〜ST16の処理と同一であるため、説明を省略する。Next, the operation of the automatic recording apparatus according to the fourth embodiment will be described using the flowchart shown in FIG.
The processing in steps ST41 to ST46 is the same as the processing in steps ST11 to ST16 shown in FIG.
そして、ステップST46において、映像音声記録部7が、コンテンツ区間検出部6からの命令を受けて楽曲の記録を停止した後、制御部4は、出力部9に対して曲名・アーティスト名を出力するよう指示を行い、ユーザにその楽曲の保存をするかどうか確認を求める(ステップST47)。
In step ST46, after the video /
ユーザが、入力部8を介して曲名・アーティスト名が示された楽曲について保存要の選択をした場合、すなわち、入力部8が楽曲の保存要否について保存要である旨のユーザの入力を受け付けると(ステップST48のYESの場合)、映像音声記録部7に録音された楽曲を情報記憶部5に保存し(ステップST49)、曲名・アーティスト名をその楽曲と関連付けて情報記憶部5に保存する(ステップST50)。
When the user selects to save the music whose song name / artist name is indicated via the
一方、ステップST48において、ユーザが保存要の選択をしなかった場合、すなわち、入力部8が楽曲の保存要否について保存否である旨のユーザの入力を受け付けた場合(ステップST48のNOの場合)には、曲名・アーティスト名だけを情報記憶部5に保存して、その曲名・アーティスト名の取得回数など、曲名・アーティスト名情報を更新する(ステップST51)。
On the other hand, when the user does not select the storage necessity in step ST48, that is, when the
以上のように、この実施の形態4によれば、実施の形態1における効果に加え、コンテンツを記録した後でさらに、ユーザに対して保存要否の確認を行ってから必要な場合にだけ保存するようにしたので、ユーザが所望しないコンテンツの保存を防ぐことができる。 As described above, according to the fourth embodiment, in addition to the effects in the first embodiment, after the content is recorded, the user is further confirmed as to whether or not the storage is necessary, and is stored only when necessary. As a result, it is possible to prevent storage of contents not desired by the user.
実施の形態5.
図11は、この発明の実施の形態5による自動記録装置の一例を示すブロック図である。なお、実施の形態1〜4で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態5では、実施の形態4と比べると、制御部4がコンテンツ区間検出部6による楽曲の終了区間検知時に映像音声記録部7で記録された楽曲と、情報記憶部5に保存されている楽曲とを比較して、既に同一の曲名・アーティスト名の楽曲が保存済みの場合には、音質の良い方を保存するようにしたものである。
FIG. 11 is a block diagram showing an example of an automatic recording apparatus according to
制御部4は、コンテンツ区間検出部6による楽曲の終了区間検知時に映像音声記録部7で録音された楽曲を取得して、当該楽曲の音質の良さを数値化する。この時、音質の良さを数値化する方法としては、S/N比などの一般的な手法を用いればよいので、ここでは説明を省略する。なお、音質の良さの基準としては、録音時間を用いてもよいし、S/N比と録音時間とを組み合わせてもよい。
The
さらに制御部4は、情報記憶部5に記憶されているデータを参照することにより、音声認識部2において抽出されたコンテンツの識別データについて、同一のデータ(曲名、アーティスト名を持つ曲)が情報記憶部5に存在するか否かを判別し、存在する場合には、映像音声記録部7で録音された楽曲(コンテンツ)と、情報記憶部5に保存されている楽曲(コンテンツ)の音質とを比較し、新たに映像音声記録部7により録音された楽曲(コンテンツ)の方が既存の楽曲より音質が高い場合にのみ、自動的に情報記憶部5に保存されている楽曲(コンテンツ)に上書きして保存する。
Further, the
次に、図12に示すフローチャートを用いて実施の形態5における自動記録装置の動作を説明する。
ステップST61〜ST66の処理については、実施の形態1における図4に示したステップST11〜ST16の処理と同一であるため、説明を省略する。Next, the operation of the automatic recording apparatus according to the fifth embodiment will be described using the flowchart shown in FIG.
The processing in steps ST61 to ST66 is the same as the processing in steps ST11 to ST16 shown in FIG.
そして、ステップST66において、映像音声記録部7が、コンテンツ区間検出部6からの命令を受けて楽曲の記録を停止した後、制御部4は、ステップST62で音声認識部2により検出された曲名・アーティスト名と同一の楽曲が既に情報記憶部5に保存されているか否かを判別し(ステップST67)、既に同一の楽曲が保存済みである場合(ステップST67のYESの場合)には、さらにステップST64〜ST66において映像音声記録部7に録音された楽曲を取得して、当該楽曲の音質の良さを数値化した音質情報を、情報記憶部5に保存されている楽曲の音質と比較する(ステップST68)。
In step ST66, after the video /
ステップST64〜ST66において映像音声記録部7に録音された楽曲の音質が既存の楽曲の音質より高い場合(ステップST68のYESの場合)、映像音声記録部7に録音された楽曲を情報記憶部5に保存し(ステップST69)、曲名・アーティスト名をその楽曲と関連付けて情報記憶部5に保存する(ステップST70)。
また、ステップST67の判断において、同一の楽曲が情報記憶部5に保存されていない場合(ステップST67のNOの場合)にも、上記ステップST69およびST70の処理を行う。When the sound quality of the music recorded in the video /
Further, in the determination of step ST67, even when the same music is not stored in the information storage unit 5 (NO in step ST67), the processes of steps ST69 and ST70 are performed.
一方、ステップST68において、映像音声記録部7に録音された楽曲の音声津が既存の楽曲の音質以下だった場合(ステップST68のNOの場合)には、曲名・アーティスト名だけを情報記憶部5に保存して、その曲名・アーティスト名の取得回数など、曲名・アーティスト名情報を更新する(ステップST71)。
On the other hand, in step ST68, if the audio quality of the music recorded in the video /
以上のように、この実施の形態5によれば、実施の形態1における効果に加え、既に取得している曲名・アーティスト名について、新しく取得した楽曲の音質が高い場合には、その楽曲(コンテンツ)を記録し、既存の楽曲の音質以下だった場合には、楽曲(コンテンツ)を上書きしないようにすることにより、常に音質の良いコンテンツに自動で更新することができる。 As described above, according to the fifth embodiment, in addition to the effects in the first embodiment, when the sound quality of a newly acquired music is high for the already acquired music title / artist name, the music (content ) Is recorded, and if it is lower than the sound quality of the existing music, the music (content) is not overwritten so that it can always be automatically updated to a content with good sound quality.
なお、この実施の形態5では、新たに録音された曲の音質が既存の曲の音質より高かった場合に、自動的に上書き保存を行うものとして説明したが、ユーザに上書き保存の要否を確認してから保存するようにしてもよい。
この場合には、既存の楽曲の音質以下だった場合には楽曲(コンテンツ)を上書きしないことに加え、既存の楽曲の音質より高かった場合であっても、ユーザの確認を得た上で上書き保存するようにしたので、ユーザの都合により、音質の良い方を保存するよう選択したり、音質は多少悪くても好みの録音状態の楽曲を残すように選択したりすることができる。In the fifth embodiment, when the sound quality of a newly recorded song is higher than the sound quality of an existing song, the overwriting is automatically performed. You may make it preserve | save after confirming.
In this case, in addition to not overwriting the music (content) if it is lower than the sound quality of the existing music, even if it is higher than the sound quality of the existing music, overwriting with confirmation from the user Since it is stored, it is possible to select the one having better sound quality for the convenience of the user, or to leave the music in the desired recording state even if the sound quality is somewhat poor.
実施の形態6.
図13は、この発明の実施の形態6による自動記録装置の一例を示すブロック図である。なお、実施の形態1〜5で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態6では、実施の形態2と比べると、音声認識部2が複数の音声認識器21,22,23,・・・により構成されており、複数の言語ごとに認識辞書(図示せず)を有するものであり、それら言語ごとの複数の音声認識エンジンを使用して、複数の言語ごとに音声認識を行うようにしたものである。
FIG. 13 is a block diagram showing an example of an automatic recording apparatus according to
一般的に、例えば日本語の音声認識エンジンは、外国語の音声認識には弱く、英語が発話された場合には、英語の音声認識エンジンを使用した方が認識精度が高い。そこで、日本語用の音声認識器2−1、英語用の音声認識器2−2、ドイツ語用の音声認識器2−3、・・・等のように、それぞれが各言語ごとの認識辞書を有する各言語ごとの音声認識器21,22,23,・・・を備えるようにした。ここでは、それら複数の音声認識器21,22,23,・・・を並列に接続した音声認識部2を使用する場合を例として説明する。
In general, for example, a Japanese speech recognition engine is weak for speech recognition of a foreign language, and when English is spoken, the recognition accuracy is higher when the English speech recognition engine is used. Therefore, each of the recognition dictionaries for each language such as a speech recognizer 2-1 for Japanese, a speech recognizer 2-2 for English, a speech recognizer 2-3 for German, etc. Are provided with
そして、音声認識部2が音声取得部1から出力された音声を認識する際に、複数の言語に対応する音声認識器21,22,23,・・・とそれぞれの認識辞書(図示せず)とを並列に動作させて、各音声認識器21,22,23,・・・により複数の言語ごとに音声認識を行い、その結果を制御部4に出力する。その時、各音声認識器21,22,23,・・・は、認識結果とともにその認識の尤度も出力する。
When the
制御部4は、複数の音声認識器21,22,23,・・・により認識された結果の中で最も尤度の高い結果から認識された音声の言語を特定し、その認識の尤度が最も高い言語により抽出された楽曲(コンテンツ)の曲名、アーティスト名など(識別データ)を情報記憶部5に保存する。
The
なお、図13に示す音声認識部2に代えて、図14に示すように、1つの音声認識器20で複数の音声認識辞書20−1,20−2,20−3,・・・を切り替えて認識を行う音声認識部2を使用するようにしてもよい。
Note that, instead of the
次に、図15に示すフローチャートを用いて実施の形態6における自動記録装置の動作を説明する。
まず、音声取得部1は、オーディオ機器より入力された音声をライン入力で取得する(ステップST81)。この時、オーディオ機器から入力された音声がアナログ形式の場合はA/D変換を行い、例えばPCM形式に変換してデジタルデータとして取得する。
次に、音声認識部2は、音声取得部1により取得された音声データを認識し、認識結果を文字列で出力する。この際、定型文記憶部3と比較した上で、大語彙連続音声認識を行うことにより、曲名およびアーティスト名を抽出する(ステップST82)。Next, the operation of the automatic recording apparatus according to the sixth embodiment will be described using the flowchart shown in FIG.
First, the
Next, the
制御部4は、音声認識部2においてに認識された各言語の音声の確からしさ(もっともらしさ)を示す尤度も同時に取得し、その認識の尤度に基づいて、曲名・アーティスト名の言語を決定する(ステップST83)。例えば、最も尤度の高い言語を、曲名・アーティスト名の言語であると特定する。これにより、多言語の音声認識辞書を用いて精度の低い音声認識が行われることを防ぎ、外国語の曲名・アーティスト名であっても正しく認識することができる。
The
さらに制御部4は、ステップST83で決定した言語の音声認識の尤度が所定の値以上である場合(ステップST84のYESの場合)には、コンテンツ区間検出部6を動作させ、ステップST85〜ST90の処理を行う。
なお、ステップST85〜ST90の処理については、実施の形態1における図4に示したステップST13〜ST18の処理と同一であるため、説明を省略する。Further, when the likelihood of speech recognition in the language determined in step ST83 is equal to or greater than a predetermined value (YES in step ST84),
In addition, about the process of step ST85-ST90, since it is the same as the process of step ST13-ST18 shown in FIG. 4 in
なお、ステップST83において、認識の尤度に基づいて曲名・アーティスト名の言語を特定する方法としては、音声認識辞書を備えている複数の言語すべてに対して音声認識を行い、それらの認識の尤度を比較して最も尤度の高いものを特定する方法や、認識の尤度の閾値を設定しておき、認識の尤度が設定された閾値以上であればその言語であると判断して残りの言語については音声認識を行わずに特定する方法など、様々な方法が考えられるが、それらのいずれを用いても構わない。 In step ST83, as a method for specifying the language of the song title / artist name based on the likelihood of recognition, speech recognition is performed for all of the plurality of languages provided with the speech recognition dictionary, and the likelihood of the recognition. A method to identify the highest likelihood by comparing degrees and a threshold of recognition likelihood are set, and if the recognition likelihood is equal to or higher than the set threshold, the language is determined. Various methods such as a method of identifying the remaining languages without performing voice recognition can be considered, and any of them may be used.
以上のように、この実施の形態6によれば、実施の形態1における効果に加え、各種言語の音声認識エンジンを用いた音声認識を行って、その認識の尤度に基づいて言語を決定することにより、外国語の曲名・アーティスト名であっても正しく認識して保存することができる。 As described above, according to the sixth embodiment, in addition to the effects in the first embodiment, speech recognition using a speech recognition engine of various languages is performed, and the language is determined based on the likelihood of the recognition. Thus, even foreign song names and artist names can be recognized and stored correctly.
なお、上記の実施の形態では、コンテンツが楽曲である場合、すなわち、音楽コンテンツの場合を例として説明したが、音楽コンテンツに限らず、例えばスポーツ中継のコンテンツについて区間を抽出、記録を行ってもよいし、トーク番組のコンテンツについて区間を抽出、記録を行ってもよいし、ドキュメンタリーのコンテンツについて区間を抽出、記録を行うようにしてもよい。 In the above-described embodiment, the case where the content is music, that is, the case of music content has been described as an example. However, the present invention is not limited to music content, and for example, a segment may be extracted and recorded for sports broadcast content. Alternatively, sections may be extracted and recorded for talk program content, or sections may be extracted and recorded for documentary content.
この発明の自動記録装置は、ラジオやテレビなどの放送データを受信することができる装置であれば、外部との通信手段を備えていない場合や、インターネットの接続状態が悪い環境であっても、適用することができる。 As long as the automatic recording device of the present invention is a device capable of receiving broadcast data such as radio and television, even if it does not have communication means with the outside, or even in an environment where the Internet connection is poor, Can be applied.
なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。 In the present invention, within the scope of the invention, any combination of the embodiments, or any modification of any component in each embodiment, or omission of any component in each embodiment is possible. .
この発明の自動記録装置は、ラジオやテレビなどの放送データを受信することができる装置であれば、外部との通信手段を備えていない場合や、インターネットの接続状態が悪い環境であっても、適用することができる。 As long as the automatic recording device of the present invention is a device capable of receiving broadcast data such as radio and television, even if it does not have communication means with the outside, or even in an environment where the Internet connection is poor, Can be applied.
1 音声取得部、2 音声認識部、3 定型文記憶部、4 制御部、5 情報記憶部、6 コンテンツ区間検出部、7 映像音声記録部、8 入力部、9 出力部、20,21,22,23,・・・ 音声認識器、20−1,20−2,20−3,・・・ 認識辞書。
DESCRIPTION OF
Claims (6)
前記コンテンツを紹介する際の文言を記憶する定型文記憶部と、
前記音声取得部により取得された音声データを認識するとともに、当該認識結果と前記定型文記憶部に記憶されている文言とに基づいて、前記コンテンツの識別データを抽出して出力する音声認識部と、
前記音声認識部から前記コンテンツの識別データを受け取った場合に、前記コンテンツの開始時点および終了時点を検知するよう指示する制御部と、
前記制御部からの指示にしたがって、前記音声取得部により取得された音声データから前記コンテンツの開始時点および終了時点を検知するコンテンツ区間検出部と、
前記コンテンツ区間検出部により検出された開始時点と終了時点の間のコンテンツ区間におけるコンテンツを記録する映像音声記録部と、
少なくとも前記映像音声記録部により記録されたコンテンツと、前記コンテンツの識別データとを記憶する情報記憶部とを備え、
前記制御部は、前記コンテンツの識別データを前記映像音声記録部により記録されたコンテンツと対応付けて前記情報記憶部に保存する
ことを特徴とする自動記録装置。An audio acquisition unit that detects and acquires audio including content and identification data of the content from broadcast data;
A fixed sentence storage unit for storing words used when introducing the content;
A voice recognition unit that recognizes the voice data acquired by the voice acquisition unit and extracts and outputs the identification data of the content based on the recognition result and the text stored in the fixed phrase storage unit; ,
A control unit that instructs to detect a start time and an end time of the content when the identification data of the content is received from the voice recognition unit;
In accordance with an instruction from the control unit, a content section detection unit that detects a start time and an end time of the content from the audio data acquired by the audio acquisition unit;
A video / audio recording unit for recording content in a content section between a start time point and an end time point detected by the content section detection unit;
An information storage unit that stores at least the content recorded by the video / audio recording unit and identification data of the content;
The control unit stores the identification data of the content in the information storage unit in association with the content recorded by the video / audio recording unit.
前記制御部は、前記情報記憶部に記憶されているデータを参照することにより、前記コンテンツを取得した回数が所定の回数以上である場合にのみ、前記コンテンツの識別データを前記コンテンツと対応付けて前記情報記憶部に保存する
ことを特徴とする請求項1記載の自動記録装置。The data stored in the information storage unit includes the number of times the content has been acquired,
The control unit refers to the data stored in the information storage unit and associates the content identification data with the content only when the number of times the content is acquired is equal to or greater than a predetermined number. The automatic recording apparatus according to claim 1, wherein the information is stored in the information storage unit.
前記制御部は、前記認識の尤度が所定の値以上である場合にのみ、前記コンテンツの識別データを前記コンテンツと対応付けて前記情報記憶部に保存する
ことを特徴とする請求項1記載の自動記録装置。The speech recognition unit outputs the recognition likelihood together with the recognition result,
2. The control unit according to claim 1, wherein the control unit stores the identification data of the content in the information storage unit in association with the content only when the likelihood of the recognition is a predetermined value or more. Automatic recording device.
前記ユーザにデータを提示する出力部とをさらに備え、
前記制御部は、前記コンテンツの識別データを前記コンテンツと対応付けて前記情報記憶部に保存する際に、前記出力部を介して前記保存の要否を前記ユーザに確認し、前記入力部を介して保存要である旨の入力を受け付けた場合には、前記コンテンツの識別データを前記コンテンツと対応付けて前記情報記憶部に保存し、前記入力部を介して保存否である旨の入力を受け付けた場合には、前記コンテンツの識別データのみを前記情報記憶部に保存する
ことを特徴とする請求項1記載の自動記録装置。An input unit for receiving an operation input from a user;
An output unit for presenting data to the user;
When the control unit stores the identification data of the content in the information storage unit in association with the content, the control unit confirms whether or not the storage is necessary via the output unit, and passes the input unit through the input unit. When the input indicating that it is necessary to store is received, the content identification data is stored in the information storage unit in association with the content, and the input indicating that the storage is not accepted is received via the input unit. 2. The automatic recording apparatus according to claim 1, wherein only the identification data of the content is stored in the information storage unit.
ことを特徴とする請求項1記載の自動記録装置。The control unit determines whether or not the same data as the extracted content identification data exists in the information storage unit by referring to the data stored in the information storage unit. In this case, the sound quality of the content recorded by the video / audio recording unit and the content stored in the information storage unit are compared, and the content recorded by the video / audio recording unit is higher in sound quality. 2. The automatic recording apparatus according to claim 1, wherein the content recorded by the video / audio recording unit is overwritten with the content stored in the information storage unit.
前記制御部は、前記認識の尤度に基づいて前記コンテンツの識別データの言語を特定し、当該特定された言語により抽出されたコンテンツの識別データを前記コンテンツと対応付けて前記情報記憶部に保存する
ことを特徴とする請求項1記載の自動記録装置。The speech recognition unit has a recognition dictionary for each of a plurality of languages, performs speech recognition for each of the plurality of languages, and outputs the recognition likelihood together with the recognition result,
The control unit specifies a language of the content identification data based on the likelihood of recognition, and stores the content identification data extracted in the specified language in association with the content in the information storage unit The automatic recording apparatus according to claim 1, wherein:
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2012/003652 WO2013183078A1 (en) | 2012-06-04 | 2012-06-04 | Automatic recording device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP5591428B2 true JP5591428B2 (en) | 2014-09-17 |
JPWO2013183078A1 JPWO2013183078A1 (en) | 2016-01-21 |
Family
ID=49711508
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014519697A Expired - Fee Related JP5591428B2 (en) | 2012-06-04 | 2012-06-04 | Automatic recording device |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP5591428B2 (en) |
CN (1) | CN104350545B (en) |
WO (1) | WO2013183078A1 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015161632A (en) * | 2014-02-28 | 2015-09-07 | 富士通テン株式会社 | Image display system, head-up display device, image display method, and program |
WO2018179425A1 (en) * | 2017-03-31 | 2018-10-04 | 株式会社オプティム | Speech detail recording system, method, and program |
JP2019200393A (en) * | 2018-05-18 | 2019-11-21 | シャープ株式会社 | Determination device, electronic apparatus, response system, method for controlling determination device, and control program |
JP7009338B2 (en) * | 2018-09-20 | 2022-01-25 | Tvs Regza株式会社 | Information processing equipment, information processing systems, and video equipment |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1054484C (en) * | 1993-12-21 | 2000-07-12 | 罗伊·J·曼科维茨 | Apparatus and method for identifying broadcast programs and accessing information relating thereto |
JP2003085884A (en) * | 2001-09-14 | 2003-03-20 | Pioneer Electronic Corp | Information recording device |
CN1726489A (en) * | 2002-10-28 | 2006-01-25 | 格雷斯诺特有限公司 | Personal audio recording system |
JP2007219178A (en) * | 2006-02-16 | 2007-08-30 | Sony Corp | Musical piece extraction program, musical piece extraction device, and musical piece extraction method |
JP4442585B2 (en) * | 2006-05-11 | 2010-03-31 | 三菱電機株式会社 | Music section detection method and apparatus, and data recording method and apparatus |
GB0625178D0 (en) * | 2006-12-18 | 2007-01-24 | Ubc Media Group Plc | Improvements relating to downloading data |
JP2011043710A (en) * | 2009-08-21 | 2011-03-03 | Sony Corp | Audio processing device, audio processing method and program |
JP2011223205A (en) * | 2010-04-07 | 2011-11-04 | Onkyo Corp | Broadcast recording apparatus and program for the same |
-
2012
- 2012-06-04 CN CN201280073736.0A patent/CN104350545B/en not_active Expired - Fee Related
- 2012-06-04 WO PCT/JP2012/003652 patent/WO2013183078A1/en active Application Filing
- 2012-06-04 JP JP2014519697A patent/JP5591428B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN104350545A (en) | 2015-02-11 |
WO2013183078A1 (en) | 2013-12-12 |
JPWO2013183078A1 (en) | 2016-01-21 |
CN104350545B (en) | 2016-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107305541B (en) | Method and device for segmenting speech recognition text | |
US9798934B2 (en) | Method and apparatus for providing combined-summary in imaging apparatus | |
JP4459267B2 (en) | Dictionary data generation apparatus and electronic device | |
US6332122B1 (en) | Transcription system for multiple speakers, using and establishing identification | |
KR101897492B1 (en) | Display apparatus and Method for executing hyperlink and Method for recogniting voice thereof | |
US8924853B2 (en) | Apparatus, and associated method, for cognitively translating media to facilitate understanding | |
JP2002032213A (en) | Method and system for transcribing voice mail message | |
JP5787780B2 (en) | Transcription support system and transcription support method | |
JP5824829B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
JP2002258890A (en) | Speech recognizer, computer system, speech recognition method, program and recording medium | |
JP2011002656A (en) | Device for detection of voice recognition result correction candidate, voice transcribing support device, method, and program | |
US20020065653A1 (en) | Method and system for the automatic amendment of speech recognition vocabularies | |
JP5591428B2 (en) | Automatic recording device | |
JPWO2007069372A1 (en) | Voice recognition device | |
JPWO2007097390A1 (en) | Speech recognition system, speech recognition result output method, and speech recognition result output program | |
US7010485B1 (en) | Method and system of audio file searching | |
US20150269930A1 (en) | Spoken word generation method and system for speech recognition and computer readable medium thereof | |
JP2013088477A (en) | Speech recognition system | |
JP2004333738A (en) | Device and method for voice recognition using video information | |
JP5396530B2 (en) | Speech recognition apparatus and speech recognition method | |
JP4675691B2 (en) | Content information providing device | |
JP4639094B2 (en) | Speech recognition system, speech recognition apparatus, and speech recognition program | |
JP2012003090A (en) | Speech recognizer and speech recognition method | |
CN110782899A (en) | Information processing apparatus, storage medium, and information processing method | |
JP2001318915A (en) | Font conversion device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20140625 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140701 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140729 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5591428 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |