JP2008097232A - Voice information retrieval program, recording medium thereof, voice information retrieval system, and method for retrieving voice information - Google Patents

Voice information retrieval program, recording medium thereof, voice information retrieval system, and method for retrieving voice information Download PDF

Info

Publication number
JP2008097232A
JP2008097232A JP2006277026A JP2006277026A JP2008097232A JP 2008097232 A JP2008097232 A JP 2008097232A JP 2006277026 A JP2006277026 A JP 2006277026A JP 2006277026 A JP2006277026 A JP 2006277026A JP 2008097232 A JP2008097232 A JP 2008097232A
Authority
JP
Japan
Prior art keywords
search
database
voice information
character string
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006277026A
Other languages
Japanese (ja)
Inventor
Toshibumi Okuhara
俊文 奥原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2006277026A priority Critical patent/JP2008097232A/en
Priority to PCT/JP2007/069655 priority patent/WO2008044669A1/en
Publication of JP2008097232A publication Critical patent/JP2008097232A/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates

Abstract

<P>PROBLEM TO BE SOLVED: To provide a voice information retrieval program capable of obtaining a more accurate retrieval result and allowed to be easily used for various databases. <P>SOLUTION: The voice information retrieval program allows a computer to perform: at least a step for converting voice elements recorded in voice information into character strings; a step for counting the reproduction time of the voice information; a step for dividing the character strings in each prescribed time and registering the divided character strings in a database when the reproduction time of the voice information is longer than the prescribed time, and when the reproduction time of the voice information is the prescribed time and less, registering the character strings of the voice information in the database without division; a step for determining a retrieval item for retrieving the database and a retrieving condition of the retrieval item; a step for performing the retrieval of the database according to the retrieving condition; and a step for outputting the result of retrieval. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

本発明は、音声情報検索プログラムに関する。より詳しくは、音声情報検索プログラムとその記録媒体、音声情報検索システム、並びに音声情報検索方法に関する。   The present invention relates to a voice information retrieval program. More specifically, the present invention relates to a voice information search program and its recording medium, a voice information search system, and a voice information search method.

近年の電子化促進により、テキスト情報、画像情報、音声情報、動画情報等の種々の電子情報がデータ化・使用されている。そして、これらの情報が蓄積されたデータベースにユーザーがアクセスし、データベース内で検索することで所望の情報ファイルを入手できる。これに関して、検索対象となるデータベースに登録されている情報ファイルの種類の多様化に伴って、その検索方法も開発されている。   With the recent promotion of computerization, various types of electronic information such as text information, image information, audio information, and moving image information are converted into data and used. Then, a user accesses a database in which these pieces of information are stored, and a desired information file can be obtained by searching in the database. In this regard, with the diversification of types of information files registered in a database to be searched, a search method has been developed.

例えば、講義やニュース番組等の音声情報ファイルに対してキーワードを入力することで、そのキーワードを含んだ音声情報ファイルを検索すること等が行なわれている。その場合、音声情報ファイル中の、希望するキーワードが発せられる時間帯(再生時間位置)をいかに効率よく正確に検索できるかが重要である。例えば、数時間にわたる映画や講演の動画ファイル・音声情報ファイルのなかで、ユーザーが見たいシーン(所望するセリフが発せられる場面とその再生時間位置)を効率よく検索できることは、ユーザーの時間的負担の軽減だけでなく、検索使用時のストレスも軽減される。   For example, by inputting a keyword to a voice information file such as a lecture or a news program, a voice information file including the keyword is searched. In that case, it is important how efficiently and accurately the time zone (reproduction time position) in which the desired keyword is issued in the audio information file can be searched. For example, it is the user's time burden to be able to efficiently search for the scene that the user wants to see (the scene where the desired speech is emitted and its playback time position) in movie files and audio information files of movies and lectures over several hours. As well as alleviating, the stress when using search is also reduced.

このような音声情報検索方法として、ユーザーが入力した検索キーワードを音声素子に変換し、データベースの音声情報ファイルに格納された音声とのマッチングを行なう方法等が行なわれている。また、特許文献1には、音声情報の検索方法として、入力された任意の単語から音声素子列を生成する場合に、認識誤りが発生している可能性を考慮して検索する技術等について開示されている。   As such a speech information retrieval method, a search keyword input by a user is converted into a speech element, and matching with speech stored in a speech information file of a database is performed. Further, Patent Document 1 discloses a technique for searching in consideration of a possibility that a recognition error has occurred when generating a speech element sequence from an input arbitrary word as a speech information search method. Has been.

特開2005−257954号公報。JP-A-2005-257594.

しかし、音声情報の検索を行う場合、データベースに蓄積された音声情報ファイルを音声素子として音声検索すると、その音声のイントネーションや強弱やなまりの有無等によって正確に音声認識できない場合が生じ、検索精度が低下する。また、音声情報ファイルに記録された情報量(録音時間・録画時間等)が大きい場合には、この音声情報ファイルの中から正確に所望する場面(再生時間位置)を検索できない場合があり、検索精度が低下する。   However, when searching for voice information, if the voice information file stored in the database is used as a voice element, voice search may not be performed correctly due to the intonation of the voice, the presence or absence of strength, or the presence of rounding. descend. Also, if the amount of information recorded in the audio information file (recording time, recording time, etc.) is large, the desired scene (playback time position) may not be accurately searched from this audio information file. Accuracy is reduced.

そこで、本発明は、より正確な検索結果を得ることができ、かつ種々のデータベースにも簡易に使用できる音声情報検索プログラムを提供することを主目的とする。   SUMMARY OF THE INVENTION Accordingly, it is a primary object of the present invention to provide an audio information search program that can obtain more accurate search results and can be easily used in various databases.

まず、本発明の第1の側面として、音声情報に記録された音声素子を文字列に変換するステップと、前記音声情報の再生時間を測定するステップと、音声情報の再生時間が所定時間よりも長い場合には、前記音声情報の前記文字列を所定時間ごとに区切ってデータベースに登録し、音声情報の再生時間が所定時間以下である場合には、前記音声情報の前記文字列を区切らずにデータベースに登録するステップと、前記データベースに対して検索を行なう検索項目と、該検索項目についての検索条件と、を決定するステップと、前記検索条件に従って、前記データベースに対して検索を実行するステップと、前記検索の結果を出力するステップと、を少なくともコンピュータに実行させる音声情報検索プログラムを提供する。これら各ステップをコンピュータに実行させることで、高い検索精度を有するとともに、検索所要速度も速い音声情報検索を行なうことができる。   First, as a first aspect of the present invention, a step of converting an audio element recorded in audio information into a character string, a step of measuring the reproduction time of the audio information, and a reproduction time of the audio information are longer than a predetermined time If it is long, the character string of the voice information is divided into predetermined time intervals and registered in the database. If the reproduction time of the voice information is less than the predetermined time, the character string of the voice information is not divided. Registering in the database; determining a search item for searching the database; a search condition for the search item; and executing a search for the database according to the search condition; And a voice information retrieval program for causing a computer to execute at least the step of outputting the search result. By causing the computer to execute each of these steps, it is possible to perform voice information search with high search accuracy and high search speed.

また、本発明の第2の側面として、文字列を構成する文字数を測定し、その文字数が所定文字数よりも長い場合には分節し、長くない場合にはそのままデータベースに登録するステップを行なうようにすることもできる。   As a second aspect of the present invention, the number of characters constituting the character string is measured, and when the number of characters is longer than the predetermined number of characters, the segmentation is performed. You can also

次に、本発明では、前記データベースに対して検索を実行するために、少なくとも、(1)区切られた音声情報のうち、連続する前後2つの音声情報を結合するステップ、(2)前記結合された2つの音声情報の文字列のなかに、検索条件で指定した文字が含まれるか判断するステップ、(3)前記区切られた2つの音声情報のそれぞれの文字列のなかに、各音声情報の文字列に検索条件で指定した文字が含まれるか判断するステップ、をコンピュータに実行させることを特徴とする音声情報検索プログラムを提供する。これらの各ステップをコンピュータに実行させることで、音声情報を区切ることで、頭切れや尻切れになった文字列に対しても、高い検索精度である音声情報検索を行なうことができる。   Next, in the present invention, in order to perform a search on the database, at least (1) a step of combining two pieces of continuous voice information among the divided pieces of voice information, and (2) the combination. A step of determining whether or not the character specified by the search condition is included in the character strings of the two voice information; (3) each of the voice information in the character strings of the two separated voice information; A voice information retrieval program is provided that causes a computer to execute a step of determining whether a character string includes a character designated by a retrieval condition. By causing the computer to execute each of these steps, it is possible to perform speech information retrieval with high retrieval accuracy even for character strings that are truncated or truncated by separating speech information.

続いて、本発明では、前記検索の結果を出力するために、少なくとも、(a)検索条件で指定した文字に対応する音声素子が記録されている音声情報の記録時間位置を指定するステップ、(b)前記指定された記録時間位置よりも、所定時間だけ前にさかのぼった記録時間位置を再生開始位置として指定するステップ、(c)前記指定された再生開始位置から音声再生するステップ、をコンピュータに実行させることを特徴とする音声情報検索プログラムを提供する。これらの各ステップをコンピュータに実行させることで、検索条件に合致したより正確な再生位置から前記音声情報を再生することができる。   Subsequently, in the present invention, in order to output the search result, at least (a) a step of designating a recording time position of voice information in which a voice element corresponding to the character designated by the search condition is recorded; b) designating a computer as a reproduction start position a recording time position that goes back a predetermined time before the designated recording time position; and (c) performing audio reproduction from the designated reproduction start position. Provided is a speech information retrieval program characterized by being executed. By making the computer execute these steps, the audio information can be reproduced from a more accurate reproduction position that matches the search condition.

更に、本発明では、前記プログラムが記録されたコンピュータ読取可能な記録媒体を提供する。なお、本発明において用いられる「記録媒体」とは、プログラムのインストール、実行、プログラムの流通・頒布等のために用いられる、プログラムが記録されたコンピュータで読み取り可能なあらゆる記録媒体をいう。   Furthermore, the present invention provides a computer-readable recording medium on which the program is recorded. The “recording medium” used in the present invention refers to any computer-readable recording medium on which a program is recorded, which is used for program installation, execution, program distribution / distribution, and the like.

また、本発明では、音声情報に記録された音声素子を文字列に変換する手段と、前記音声情報の再生時間の測定手段と、音声情報の再生時間が所定時間よりも長い場合には、前記音声情報の前記文字列を所定時間ごとに区切ってデータベースに登録し、音声情報の再生時間が所定時間以下である場合には、前記音声情報の前記文字列を区切らずにデータベースに登録する手段と、前記データベースに対して検索を行なう検索項目と、該検索項目についての検索条件の決定手段と、前記検索条件に従って、前記データベースに対して検索を実行する手段と、前記検索の結果の出力手段と、を少なくとも備えた音声情報検索システムを提供する。かかる音声情報検索システムとすることで、高い検索精度を有するとともに、検索所要速度も速い音声情報検索システムを構築することができる。   In the present invention, the voice element recorded in the voice information is converted into a character string, the voice information playback time measuring means, and when the voice information playback time is longer than a predetermined time, Means for registering the character string of the voice information into the database divided every predetermined time and registering the database in the database without dividing the character string of the voice information when the reproduction time of the voice information is equal to or less than the predetermined time; A search item for searching the database; a search condition determining means for the search item; a means for executing a search for the database according to the search condition; and a search result output means; A speech information retrieval system comprising at least By using such a voice information search system, it is possible to construct a voice information search system that has high search accuracy and high search speed.

そして、本発明では、音声情報に記録された音声素子を文字列に変換する手順と、前記音声情報の再生時間を測定する手順と、音声情報の再生時間が所定時間よりも長い場合には、前記音声情報の前記文字列を所定時間ごとに区切ってデータベースに登録し、音声情報の再生時間が所定時間以下である場合には、前記音声情報の前記文字列を区切らずにデータベースに登録する手順と、前記データベースに対して検索を行なう検索項目と、該検索項目についての検索条件と、を決定する手順と、前記検索条件に従って、前記データベースに対して検索を実行する手順と、前記検索の結果を出力する手順と、を少なくとも備えた音声情報検索方法を提供する。かかる音声情報検索方法によれば、高い検索精度を有するとともに、検索所要速度も速い音声情報検索を行なうことができる。   And, in the present invention, when the sound element recorded in the sound information is converted into a character string, the procedure for measuring the reproduction time of the sound information, and the reproduction time of the sound information is longer than a predetermined time, A procedure for registering the character string of the voice information in a database divided into predetermined time intervals and registering it in the database without dividing the character string of the voice information when a reproduction time of the voice information is equal to or less than a predetermined time. A search item for searching the database, a search condition for the search item, a procedure for executing a search for the database according to the search condition, and a result of the search And a method for outputting speech information. According to this speech information retrieval method, it is possible to perform speech information retrieval that has high retrieval accuracy and high retrieval speed.

なお、本発明における「音声情報」とは、特に記載がない限り、少なくとも音声素子が記録されたあらゆる情報をいい、例えば、動画情報等も含むものである。また、本発明における「音声情報ファイル」についても同様に、特に記載がない限り、少なくとも音声素子が記録された動画情報ファイル等も含むものである。また、本発明においてステップ、手順、手段等については、本発明の目的を達成できればよく、これらを行なう順番等については本発明の範囲内において限定されない。   It should be noted that “audio information” in the present invention means any information in which at least an audio element is recorded, and includes, for example, moving image information, unless otherwise specified. Similarly, the “audio information file” in the present invention includes at least a moving image information file in which an audio element is recorded, unless otherwise specified. In the present invention, steps, procedures, means, and the like are only required to achieve the object of the present invention, and the order of performing these steps is not limited within the scope of the present invention.

本発明に係る音声情報検索プログラムによれば、音声情報を高い検索精度で検索できるとともに、その検索所要速度も速い音声情報検索を行なうことができる。   According to the voice information search program according to the present invention, voice information can be searched with high search accuracy, and voice information search can be performed at a high search speed.

以下、添付した図面に基づいて、本発明の好適な実施形態について説明する。なお、以下に説明する実施形態は本発明の好適な実施形態を例示したものであり、これにより本発明が狭く解釈されることはない。   Hereinafter, preferred embodiments of the present invention will be described with reference to the accompanying drawings. In addition, embodiment described below illustrates suitable embodiment of this invention and this invention is not interpreted narrowly by this.

図1は、本発明に係る音声情報検索プログラムを説明するための概念図である。   FIG. 1 is a conceptual diagram for explaining a voice information retrieval program according to the present invention.

図1に示すように、本発明に係る実施形態である音声情報検索プログラムは、音声情報ファイルのテキスト変換機能1、音声情報ファイルの再生時間測定機能2、データベースへの登録機能3、検索条件決定機能4、検索処理機能5、検索結果出力機能6を少なくともコンピュータに実行させるものであり、音声情報ファイルはデータベース7に蓄積されている。以下、各機能について説明する。   As shown in FIG. 1, a speech information retrieval program according to an embodiment of the present invention includes a speech information file text conversion function 1, a speech information file playback time measurement function 2, a database registration function 3, and search condition determination. The function 4, the search processing function 5, and the search result output function 6 are executed by at least a computer, and the audio information file is stored in the database 7. Each function will be described below.

音声情報ファイルのテキスト変換機能1は、音声情報ファイルに入力された音声素子を文字列に変換する機能である。音声情報ファイルの再生時間測定機能2は、音声情報ファイルの再生時間を測定する機能である。データベースへの登録機能3は、音声情報ファイルをデータベース7へ登録する機能である。検索条件決定機能4は、所望する音声情報ファイルを抽出するための検索条件を決定する機能である。検索処理機能5は、前記検索条件決定機能4で決定された検索条件に従って、データベース7に対して検索を実行処理する機能である。検索結果出力機能6は、前記検索処理機能5によって得られた検索結果を出力する機能である。   The voice information file text conversion function 1 is a function for converting a voice element input to the voice information file into a character string. The audio information file reproduction time measurement function 2 is a function for measuring the reproduction time of the audio information file. The database registration function 3 is a function for registering an audio information file in the database 7. The search condition determination function 4 is a function for determining a search condition for extracting a desired audio information file. The search processing function 5 is a function for executing a search on the database 7 in accordance with the search condition determined by the search condition determination function 4. The search result output function 6 is a function for outputting the search result obtained by the search processing function 5.

図2は、本発明に係る音声情報検索プログラムの第1実施形態におけるデータベースを登録する際のフロー図である。即ち、図2は音声情報ファイルをその再生時間に基づいてデータベースに登録するフロー図である。   FIG. 2 is a flowchart for registering a database in the first embodiment of the speech information retrieval program according to the present invention. That is, FIG. 2 is a flowchart for registering the audio information file in the database based on the reproduction time.

まず、音声情報ファイル(動画情報ファイルも含む。以下、同じ。)のファイル情報を入力する(S1)。前記ファイル情報として、音声情報ファイルのタイトル名、カテゴリ、作成者、音声言語、作成日等を入力する。このように、本発明では、音声情報をコンテンツ登録する際に、コンテンツ名やカテゴリ等のフィルタ条件項目を入力することができるが、このステップで入力するファイル情報については特に限定されず、適宜、データベース構築に必要な情報を入力することができ、例えば、コンテンツ基本情報等を入力してもよい。入力方法については、本発明において特に限定されず、例えばキーボード等によって行なうことができる。このようにして入力された各種情報は、音声情報ファイルのファイル情報としてデータベースに登録される(S2)。   First, file information of an audio information file (including a moving image information file; the same applies hereinafter) is input (S1). As the file information, the title name, category, creator, voice language, creation date, etc. of the voice information file are input. As described above, in the present invention, when content information is registered as audio information, filter condition items such as a content name and a category can be input. However, the file information input in this step is not particularly limited, Information necessary for database construction can be input. For example, basic content information may be input. The input method is not particularly limited in the present invention, and can be performed using, for example, a keyboard. Various information input in this way is registered in the database as file information of the audio information file (S2).

次に、音声情報ファイルの音声素子が、日本語なのか英語なのかを判断する(S3)。その結果、日本語の音声情報ファイルと判断された場合、日本語についてのノイズカット処理が行われる(S4a)。そして、英語の音声情報ファイルと判断された場合、英語についてのノイズカット処理が行われる(S4b)。このノイズカットは音声情報フィルを再生しながら処理することが望ましい。   Next, it is determined whether the voice element of the voice information file is Japanese or English (S3). As a result, if it is determined that the audio information file is in Japanese, noise cut processing for Japanese is performed (S4a). If it is determined that the audio information file is in English, noise cut processing for English is performed (S4b). It is desirable to process this noise cut while reproducing the audio information file.

このように、本発明では、音声情報ファイルを再生して、音声変換システムを用いてテキスト変換を行ないデータベースに格納する。再生された音声が日本語の場合(S3,S4a等参照)には、そのテキスト変換はひらがなで表示する。あるいは、日本語変換の表示等については特に限定されず、カタカナ表示であってもよい。   As described above, in the present invention, the voice information file is reproduced, converted into text using the voice conversion system, and stored in the database. When the reproduced voice is Japanese (see S3, S4a, etc.), the text conversion is displayed in hiragana. Alternatively, display of Japanese conversion is not particularly limited, and katakana display may be used.

また、再生された音声が英語等の外国語の場合には、そのテキスト変換は英文字等の当該外国語で表示する(S2,S3b等参照)。本発明において、対象とする言語については特に限定されず、日本語や英語であってもよいし、あるいは中国語、韓国語、フランス語等であってもよいが、好適には同音異義語を持たない言語であることが好ましく、この場合には、音声情報の場合には音声と対応する単語(文字)を一義的に変換・決定できるため、より高い検索精度を得ることができる。   When the reproduced voice is in a foreign language such as English, the text conversion is displayed in the foreign language such as an English character (see S2, S3b, etc.). In the present invention, the target language is not particularly limited, and may be Japanese, English, Chinese, Korean, French, etc., but preferably has a homonym. In this case, in the case of speech information, since words (characters) corresponding to speech can be uniquely converted and determined, higher search accuracy can be obtained.

なお、本発明において、ステップS1〜S4は必ずしも行なう必要がなく、検索条件として使用する検索項目や、データベース上での音声情報ファイルの管理容易の観点等から、適宜、行なうことができる。   In the present invention, steps S1 to S4 are not necessarily performed, and can be appropriately performed from the viewpoint of search items used as search conditions, easy management of audio information files on a database, and the like.

次に、音声情報ファイルを再生し(S5)、再生された音声情報ファイルの音声素子をテキスト変換する(S6)。本発明において、音声情報ファイルの音声素子をテキスト変換する方法については特に限定されず、例えば、「Microsoft(登録商標)R.Net Speech」等の音声変換システムを用いてテキスト変換することができる。   Next, the audio information file is reproduced (S5), and the audio elements of the reproduced audio information file are converted to text (S6). In the present invention, there is no particular limitation on the method for text-converting a voice element of a voice information file. For example, text conversion can be performed using a voice conversion system such as “Microsoft (registered trademark) R.Net Speech”.

そして、再生された音声情報ファイルの再生時間がn秒よりも長いか、短いか、を判断する(S7)。その結果、n秒よりも短いと判断された場合には、前記音声情報ファイルのテキスト情報がデータベースに登録される(S8a)。ステップS8aで処理される音声情報ファイルは、再生時間が所定時間n秒以下の短時間の音声情報ファイルである。   Then, it is determined whether the reproduction time of the reproduced audio information file is longer or shorter than n seconds (S7). As a result, when it is determined that it is shorter than n seconds, the text information of the voice information file is registered in the database (S8a). The audio information file processed in step S8a is a short audio information file whose reproduction time is a predetermined time n seconds or less.

ステップS7での判断の結果、n秒よりも長いと判断された場合には、音声情報ファイルの最初のn秒の再生部分を区切って、区切られた音声情報ファイルのテキスト情報をデータベースに登録する(S8b)。そして、切り取られた音声情報ファイルの残りの部分については再度ステップS7でn秒よりも長い再生時間か否かが判断され、最終的に、音声情報ファイルがn秒単位で区切られる。ステップS8bで処理される音声情報ファイルは、再生時間が所定時間n秒よりも長時間の音声情報ファイルである。   As a result of the determination in step S7, if it is determined that it is longer than n seconds, the playback portion of the first n seconds of the audio information file is divided and the text information of the divided audio information file is registered in the database. (S8b). Then, for the remaining portion of the cut audio information file, it is determined again in step S7 whether or not the reproduction time is longer than n seconds, and the audio information file is finally divided in units of n seconds. The audio information file processed in step S8b is an audio information file whose reproduction time is longer than the predetermined time n seconds.

即ち、本発明において、再生された音声情報はテキスト変換されてデータベースに保存されるが、その際には、所定時間(n秒)の間隔でタイムスタンプを押すことで、各ユニット単位に区切って記録される。また、音声情報が前記所定の時間間隔(n秒)以下の短い情報量である場合には、分割されることなくタイムスタンプを押してそのまま記録される(図3等参照)。   In other words, in the present invention, the reproduced audio information is converted into text and stored in the database. At that time, by pressing a time stamp at predetermined time intervals (n seconds), it is divided into units. To be recorded. Further, when the audio information has a short information amount equal to or shorter than the predetermined time interval (n seconds), the time stamp is not divided and is recorded as it is (see FIG. 3 and the like).

本発明において、ステップS7の所定時間n秒の時間設定は特に限定されず、検索精度や使用するコンピュータ等の処理能力や使用環境等を考慮して、適宜、設定できる。例えば、検索精度を上げたい場合には、n秒の時間設定を短くすれば良く、検索速度等を重視する場合にはn秒の時間設定を長くすればよい。   In the present invention, the time setting of the predetermined time n seconds in step S7 is not particularly limited, and can be set as appropriate in consideration of the search accuracy, the processing capability of the computer used, the use environment, and the like. For example, when it is desired to increase the search accuracy, the time setting for n seconds may be shortened, and when the search speed is important, the time setting for n seconds may be increased.

以上のように、最終的に所定時間n秒以下となった音声情報ファイルはデータベースに全て登録される。   As described above, all audio information files that have finally become the predetermined time n seconds or less are registered in the database.

図3は、同第1実施形態において、データベースに登録された音声情報ファイルの基本情報テーブルを説明する概念図であり(図2、S1等参照)、図4は、同第1実施形態において、データベースに登録された音声情報ファイルのコンテンツデータを説明する概念図である(図2;S7,S8a,S8b等参照)。   FIG. 3 is a conceptual diagram illustrating a basic information table of audio information files registered in the database in the first embodiment (see FIG. 2, S1, etc.). FIG. It is a conceptual diagram explaining the content data of the audio | voice information file registered into the database (refer FIG. 2; S7, S8a, S8b etc.).

図3は、音声情報ファイルのファイル情報についての例示であり、コンテンツID「1」〜「4」の4番組が登録されている。そして、4番組のタイトル、カテゴリ、音声言語に関する情報が示されている。例えば、1番目に登録した番組(「ホームページ作成」)については、番組を特定・識別する番号として、コンテンツID「1」が付与されている。カテゴリとし、「コンピュータ」が付与されている。このように、コンテンツ番組のジャンル等を登録することで、より検索精度を向上させることができる。そして、音声言語として「日本語」であることがファイル情報として登録されている。   FIG. 3 is an example of file information of an audio information file, and four programs with content IDs “1” to “4” are registered. Information on the titles, categories, and speech languages of the four programs is shown. For example, the content ID “1” is assigned to the first registered program (“homepage creation”) as a number for identifying and identifying the program. The category is “Computer”. Thus, the search accuracy can be further improved by registering the genre or the like of the content program. Then, “Japanese” as the voice language is registered as file information.

図4は、データベースに登録された音声情報ファイルのコンテンツデータを示しており、音声情報ファイルがテキスト変換され、所定時間n秒以下の再生時間となるように区切られたものである(図2;S8a,8b等参照)。そして、図4では、図3のコンテンツID「1」が付与された番組「ホームページ作成」と、コンテンツID「4」が付与された番組「今日の東京の天気」と、について例示されている。コンテンツIDは、図3と同様に、番組ごとに付与された番号である。レコードIDは、番組のなかで何番目に再生された音声情報であるのかを示している。例えば、レコードID「1」は、番組の1番目に再生された音声情報ファイルである。レコードID「2」は、レコードID「1」の次に再生された2番目の音声情報ファイルであることを示している。   FIG. 4 shows content data of an audio information file registered in the database, and the audio information file is converted into text and divided so as to have a reproduction time of a predetermined time n seconds or less (FIG. 2; (See S8a, 8b, etc.). 4 illustrates the program “homepage creation” to which the content ID “1” in FIG. 3 is assigned and the program “Today's weather in Tokyo” to which the content ID “4” is assigned. The content ID is a number assigned to each program as in FIG. The record ID indicates what number of audio information is reproduced in the program. For example, the record ID “1” is an audio information file reproduced first in the program. The record ID “2” indicates that it is the second audio information file reproduced next to the record ID “1”.

そして、図4のタイムスタンプは、番組の最初からの再生時間を示している。例えば、タイムスタンプ「00:00:00:00」は、番組の最初から0秒であることを示しており、タイムスタンプ「00:00:10:00」は、番組の最初からちょうど10秒経過した時間であることを示している。即ち、この場合は、各レコードの所定時間nは10秒である(図2;S8b等参照)。   The time stamp in FIG. 4 indicates the playback time from the beginning of the program. For example, the time stamp “00: 00: 00: 00” indicates that it is 0 seconds from the beginning of the program, and the time stamp “00: 00: 10: 00” is exactly 10 seconds from the beginning of the program. Shows that it was time. That is, in this case, the predetermined time n of each record is 10 seconds (see FIG. 2; S8b etc.).

一方、図4では、コンテンツID「4」が付与された番組「今日の東京の天気」については、タイムスタンプが「00:00:00:00」、レコードIDは、「1」のみであり、この番組の再生時間は合計8秒の短い番組である(図2,S8a参照)。従って、この番組は、所定時間n(n=10秒)よりも短い音声情報ファイルであり、レコード「ID」は「1」のみからなるコンテンツである。   On the other hand, in FIG. 4, for the program “Today's weather in Tokyo” to which the content ID “4” is given, the time stamp is “00:00:00” and the record ID is only “1”. The reproduction time of this program is a short program with a total of 8 seconds (see FIG. 2, S8a). Therefore, this program is an audio information file shorter than the predetermined time n (n = 10 seconds), and the record “ID” is a content composed only of “1”.

また、図4の「テキスト」の項目は、音声情報ファイルの音声素子が文字に変換されたデータを示している。例えば、コンテンツID「1」のレコードID「1」では、「これからホームページを作っていくわけですが、まず必要なものをそろ・・・」の音声がテキスト変換されている。最後の「そろ・・・」で所定時間n(n=10秒)となって区切られている。そして、次のレコードID「2」では、レコードID「1」の続きとなっており、レコードID「2」のテキストは、「・・・えなければなりません。ここで紹介するのは一部を除いてむりょ・・・」の音声がテキスト変換されている。   Also, the item “text” in FIG. 4 indicates data obtained by converting the voice element of the voice information file into characters. For example, in the record ID “1” of the content ID “1”, the voice of “I'm going to create a homepage from now on, but first I need everything ...” is text-converted. The last “Short ...” is divided into a predetermined time n (n = 10 seconds). The next record ID “2” is a continuation of the record ID “1”, and the text of the record ID “2” must be “... The voice of "Moryo ..." is converted to text.

図5は、同第1実施形態におけるデータベースについて検索処理する際のフロー図である。即ち、図5は、図2で登録されたデータベースについて検索処理するフロー図であり、所定のキーワードを含む音声情報ファイルを検索する検索処理を示している。   FIG. 5 is a flowchart for performing a search process on the database in the first embodiment. That is, FIG. 5 is a flowchart for performing a search process on the database registered in FIG. 2, and shows a search process for searching for an audio information file including a predetermined keyword.

まず、検索条件を入力する(S9)。まず、入力する検索条件項目として、音声情報ファイルのカテゴリ、言語、テキストキーワード等が挙げられる。本発明では、データベース作成の際に入力した検索条件項目(図2、S2参照)の項目を入力することができる。本発明では、検索条件の項目については特に限定されないが、例えば、カテゴリ、言語、含まれるキーワード(文字列)等を設定することができる。   First, search conditions are input (S9). First, as a search condition item to be input, a category, a language, a text keyword, and the like of the voice information file are listed. In the present invention, the item of the search condition item (see S2 in FIG. 2) input when creating the database can be input. In the present invention, the search condition items are not particularly limited. For example, a category, a language, an included keyword (character string), and the like can be set.

次に、登録されたコンテンツ基本情報テーブルに基づいて、設定したカテゴリ、言語等の条件に合致するコンテンツ基本情報を有するデータを検索・抽出する(S10)。このステップは、音声情報ファイルに付与された基本情報(図2、図3等参照)に基づいて検索するステップである。   Next, based on the registered content basic information table, data having content basic information that matches the set conditions such as category and language is searched and extracted (S10). This step is a step of searching based on the basic information (see FIG. 2, FIG. 3, etc.) given to the audio information file.

ステップS10の結果、抽出件数が0件か、1件以上あるか、を判断する(S11)。その結果、検索条件に合致する抽出件数が1件以上ある場合には、該当データのコンテンツID(図2等参照))のコンテンツIDリストを作成する。一方、抽出件数が0件の場合には、「該当なし」を表示する(12b)。   As a result of step S10, it is determined whether the number of extraction cases is 0 or 1 or more (S11). As a result, if there is one or more extractions that match the search condition, a content ID list of content IDs of the corresponding data (see FIG. 2 etc.) is created. On the other hand, when the number of extracted cases is 0, “not applicable” is displayed (12b).

続いて、コンテンツIDのリスト件数分をループする(S13〜26)。即ち、ステップS10によって抽出されたコンテンツについて全て検索する。例えば、カテゴリ「コンピュータ」を検索条件としてデータベース内で検索した場合に、カテゴリ「コンピュータ」に属するコンテンツが全て抽出されるが、そのコンテンツ群のレコードについて全てテキスト検索を行なうものである。   Subsequently, the number of contents ID lists is looped (S13 to S26). That is, all the contents extracted in step S10 are searched. For example, when searching in the database using the category “computer” as a search condition, all the contents belonging to the category “computer” are extracted, but all the records of the content group are subjected to text search.

前記テキスト検索は、以下のステップで行なわれる。まず、コンテンツデータのカウントをリセットし(S14)、同一のコンテンツデータテーブル内のコンテンツIDが一致するレコードについて検索する(S15〜25)。まず、コンテンツ内(番組内)で区切られて登録されたレコード群に対して検索するものである。レコードIDについて、n番目のIDと、n+1番目のIDとを抽出する(S16)。例えば、レコードID「1」と「2」のレコードを抽出する。あるいは、レコードID「2」と「3」のレコードを抽出するものである。   The text search is performed in the following steps. First, the count of content data is reset (S14), and a search is made for records with matching content IDs in the same content data table (S15 to 25). First, a search is made with respect to a record group registered by being divided within the content (within the program). For the record ID, the nth ID and the (n + 1) th ID are extracted (S16). For example, records with record IDs “1” and “2” are extracted. Alternatively, records with record IDs “2” and “3” are extracted.

次に、抽出されたレコードID「n」と「n+1」のテキストを結合する(S17)。そして、結合されたレコードID「n」と「n+1」のテキスト内の文字列に対してキーワード検索を行なう。このように、前後の2つのレコードIDを結合してテキスト検索を行なうことで、レコードIDの前後の区切られた言葉(頭切れや尻切れ)に対しても検索を行なうことができる。例えば、図3の例において、コンテンツID「2」と「3」とを結合することで、コンテンツID「2」と「3」で区切られた単語「むりょ/う(無料)」についても検索することができる。即ち、コンテンツID「2」の先頭からコンテンツID「3」の最後尾の文字列「えなければ・・・・・のぞいて無料ですので・・・作ることができます。」(図3参照)について検索を行なう。その結果、該当するキーワードが含まれる場合には、ステップS20に進み、該当するレコードがない場合にはステップ26に進む。   Next, the texts of the extracted record IDs “n” and “n + 1” are combined (S17). Then, a keyword search is performed on the character strings in the combined record IDs “n” and “n + 1”. In this way, by performing a text search by combining the two previous and subsequent record IDs, it is possible to perform a search even for the words (head and tail) that are separated before and after the record ID. For example, in the example of FIG. 3, by combining the content IDs “2” and “3”, a search is also made for the word “Muryo / U (free)” delimited by the content IDs “2” and “3”. be able to. That is, from the beginning of the content ID “2”, the last character string of the content ID “3” “If you do n’t get it, it ’s free and you can create it” (see FIG. 3). Search for. As a result, when the corresponding keyword is included, the process proceeds to step S20, and when there is no corresponding record, the process proceeds to step 26.

ステップS20では、前記コンテンツ「n」のテキスト内の文字列についてキーワード検索を行なう。このステップS20は、前後のレコードを結合せずに、単一のレコード内でテキスト検索を行なうものである。例えば、図3の例において、コンテンツID「2」内の文字列に対してキーワード検索を行なうものである。   In step S20, a keyword search is performed on the character string in the text of the content “n”. In this step S20, text search is performed within a single record without combining the preceding and succeeding records. For example, in the example of FIG. 3, a keyword search is performed on the character string in the content ID “2”.

その結果、該当する文字列が抽出されなかった場合には、後続のレコードID「n+1」のテキスト内の文字列に対してもキーワード検索を行なう(S22a)。一方、単一レコード「n」内で該当する文字列(即ち、検索キーワード)が抽出された場合には、レコードID「n」のコンテンツID情報とレコードID情報を検索リストに追加する(S22b)。即ち、この場合は、レコードID「n」内に検索キーワードが存在している場合である。   As a result, if the corresponding character string is not extracted, a keyword search is also performed on the character string in the text of the subsequent record ID “n + 1” (S22a). On the other hand, when the corresponding character string (ie, search keyword) is extracted in the single record “n”, the content ID information and record ID information of the record ID “n” are added to the search list (S22b). . That is, in this case, a search keyword exists in the record ID “n”.

そして、単一レコード「n+1」内でも該当する文字列(即ち、検索キーワード)が抽出されない場合には、レコードID「n」と「n+1」の両方のコンテンツID情報とレコードID情報を検索リストに追加する(S24a)。即ち、この場合は、レコードID「n」と「n+1」にまたがって検索キーワードが存在している場合である。   If the corresponding character string (ie, search keyword) is not extracted even in the single record “n + 1”, the content ID information and record ID information of both record IDs “n” and “n + 1” are stored in the search list. It is added (S24a). That is, in this case, the search keyword exists across the record IDs “n” and “n + 1”.

一方、単一レコード「n+1」内で該当する文字列(即ち、検索キーワード)が抽出された場合には、レコードID「n+1」のコンテンツID情報とレコードID情報を検索リストに追加する(S24b)。即ち、この場合は、レコードID「n+1」内に検索キーワードが存在している場合である。   On the other hand, if the corresponding character string (ie, search keyword) is extracted in the single record “n + 1”, the content ID information and record ID information of the record ID “n + 1” are added to the search list (S24b). . That is, in this case, a search keyword exists in the record ID “n + 1”.

続いて、次のコンテンツID「n+1」と「n+2」について同様に検索を行なう(S15〜S25)。そして、1のコンテンツに属する全てのレコードIDに対して検索を行う。   Subsequently, the next content IDs “n + 1” and “n + 2” are similarly searched (S15 to S25). Then, a search is performed for all record IDs belonging to one content.

次に、今までで得られた検索結果リストから、該当コンテンツIDとコンテンツ基本情報テーブルの同項目が一致するデータを取得する(S28)。そして、取得データを表示用データに変換する(S29)。本発明では、表示用データの態様等については特に限定されないが、例えば、ユーザー端末にリストされる態様等であってもよい。   Next, from the search result list obtained so far, the data with the same content ID and the same item in the content basic information table is acquired (S28). Then, the acquired data is converted into display data (S29). In the present invention, the aspect of the display data is not particularly limited, but may be an aspect listed on the user terminal, for example.

続いて、該当コンテンツIDとコンテンツ基本情報テーブルの同項目が一致するデータを取得する(S30)。そして、取得データを表示用データに変換する(S31)。本発明では、表示用データの態様等については特に限定されないが、例えば、ユーザー端末にリストされる態様等であってもよい。そして、該当する検索リストの件数分全てについて同様にステップS28〜S31を行なう(S27〜32)。   Subsequently, data in which the corresponding content ID matches the same item in the content basic information table is acquired (S30). Then, the acquired data is converted into display data (S31). In the present invention, the aspect of the display data is not particularly limited, but may be an aspect listed on the user terminal, for example. Then, Steps S28 to S31 are performed in the same manner for all the items in the corresponding search list (S27 to 32).

図6は、同第1実施形態における検出結果を出力する際のフロー図である。即ち、図6は、図5で検索処理された検索結果を出力するフロー図であり、所定のキーワードを含む再生箇所から再生する検索結果出力である。   FIG. 6 is a flowchart when outputting the detection result in the first embodiment. That is, FIG. 6 is a flowchart for outputting the search result obtained by the search processing in FIG. 5, and is a search result output for reproduction from a reproduction portion including a predetermined keyword.

まず、精度向上モードで再生位置を出力するか否かを選択する(S33)。精度向上モードを選択した場合には、より正確なキーワードの再生位置からの再生が可能となる。精度向上モードを選択した場合には、まず検索処理(図4等参照)で得た結果リストから該当コンテンツデータの開始時間位置を取得する(S34)。続いて、出力する音声情報ファイルが日本語か英語のもののいずれかを選択する(S35)。なお、本発明では、音声言語は日本語と英語に限定されず、複数種類の言語であってもよい。   First, it is selected whether or not to output the playback position in the accuracy improvement mode (S33). When the accuracy improvement mode is selected, more accurate keyword playback from the playback position is possible. When the accuracy improvement mode is selected, first, the start time position of the corresponding content data is acquired from the result list obtained by the search process (see FIG. 4 and the like) (S34). Subsequently, either the Japanese or English audio information file to be output is selected (S35). In the present invention, the speech language is not limited to Japanese and English, and may be a plurality of types of languages.

日本語の場合には、日本語の音声に基づいたノイズカット処理を行なう(S36a)。英語の場合には、英語の音声に基づいたノイズカット処理を行なう(S36b)。言語によって、発声波数も異なるため、言語に応じて適切なノイズカット処理を行なうことで、再生出力した際にノイズが少ない状態で再生することができる。このノイズカットは音声情報フィルを再生しながら処理することが望ましい。   In the case of Japanese, noise cut processing based on Japanese speech is performed (S36a). In the case of English, noise cut processing based on English speech is performed (S36b). Since the number of utterance waves varies depending on the language, it can be reproduced with little noise when it is reproduced and output by performing an appropriate noise cut process according to the language. It is desirable to process this noise cut while reproducing the audio information file.

次に、検索処理(図4等参照)で得られた検索結果リストから該当するコンテンツデータの開始時間位置の情報を取得する(S36)。このステップよって、どの音声情報ファイルの(即ち、どのコンテンツIDなのか)どのレコードIDの何分何秒目から再生すべきかという再生予定位置の情報を取得する。そして、その再生予定位置の情報に従って、該当する再生予定位置から再生し(S37)、再生された箇所をテキスト変換する(S38)。一旦、音声情報の音声素子をテキスト変換して、そのテキストがキーワードの文字を本当に含んでいる箇所なのかを検証することで、検索精度を向上できる。   Next, information on the start time position of the corresponding content data is acquired from the search result list obtained in the search process (see FIG. 4 and the like) (S36). By this step, information on the scheduled reproduction position of which audio ID file (that is, which content ID) should be reproduced from what record ID of what record ID is acquired. Then, according to the information of the scheduled reproduction position, reproduction is performed from the corresponding reproduction scheduled position (S37), and the reproduced part is converted into text (S38). Once the voice element of the voice information is converted to text and it is verified whether the text really includes the keyword character, the search accuracy can be improved.

そして、キーワードの1文字目が、前記再生予定位置のテキストに含まれるかを判断する(S39)。例えば、キーワード「インターネット」を含む音声情報ファイルを検索した場合に、再生予定位置に「インターネット」の最初の1文字目「い」が含まれるか否かを判断するステップである。その結果、前記1文字目が含まれている場合には、該1文字目の再生開始時間(再生予定位置)から所定時間(1秒)を減じた再生位置を変数に格納する(S40)。   Then, it is determined whether or not the first character of the keyword is included in the text at the scheduled playback position (S39). For example, when a voice information file including the keyword “Internet” is searched, it is a step of determining whether or not the first character “I” of “Internet” is included in the scheduled playback position. As a result, if the first character is included, a reproduction position obtained by subtracting a predetermined time (one second) from the reproduction start time (scheduled reproduction position) of the first character is stored in a variable (S40).

このステップ40は、例えば、図3のコンテンツ「ホームページ作成」に対してキーワード「インターネット」を検索・出力再生する場合であれば、「インターネット」が含まれるレコードIDは「4」であり、キーワード「インターネット」の1文字目「イ」が位置する再生開始時間が、当該コンテンツの先頭から35秒後である場合には、当該位置から1秒前の34秒を再生位置として変数に格納するステップである。これにより、「インターネット」の1文字目が切れて「ンターネット」のような頭切れの状態で音声情報ファイルが再生されることを防止でき、「インターネット」の直前から正確に音声を再生することができる。   In this step 40, for example, if the keyword “Internet” is searched for and output for the content “create homepage” in FIG. 3, the record ID including “Internet” is “4”, and the keyword “Internet” When the playback start time at which the first character “I” of “Internet” is located is 35 seconds after the beginning of the content, the step is to store 34 seconds one second before the position as a playback position in a variable. is there. As a result, it is possible to prevent the voice information file from being played when the first character of “Internet” is cut off and the head is cut off like “Internet”, and the voice is played back right before “Internet”. Can do.

本発明では、この所定時間は1秒でなくともよく、適宜、検索対象ファイルの種類や音声内容等に応じて適宜決定できる。   In the present invention, the predetermined time does not have to be 1 second, and can be appropriately determined according to the type of the search target file, the audio content, and the like.

また、ステップS39で、キーワードの最初の1文字が一致しない、と判断された場合には、再び、開始予定位置の音声情報ファイルを再生し(S37)、キーワードの2文字目(n=2)が一致するかを判断する(S44)。   If it is determined in step S39 that the first character of the keyword does not match, the voice information file at the scheduled start position is reproduced again (S37), and the second character of the keyword (n = 2). (S44).

このように、キーワードの2文字目以降も同様のステップを行ない、キーワードである単語(あるいは文節や文章)が再生予定位置のテキストに含まれているかを判断する(S41〜S45)。即ち、キーワードの2文字目以降の判定も、同様に、開始予定位置の音声情報ファイルを再生し(S42)、これをテキスト変換する(S43)。そして、変換されたテキストと、キーワードのn文字目(n=3,4,・・・)が一致するかを判断する(S44)。このステップS41〜S45のループは、キーワードのn文字全てが一致するまで行なわれる。   In this way, the same steps are performed for the second and subsequent characters of the keyword, and it is determined whether the keyword word (or phrase or sentence) is included in the text at the reproduction planned position (S41 to S45). That is, the determination of the second and subsequent characters of the keyword is similarly performed by reproducing the voice information file at the scheduled start position (S42) and converting it to text (S43). Then, it is determined whether the converted text matches the nth character (n = 3, 4,...) Of the keyword (S44). This loop of steps S41 to S45 is performed until all n characters of the keyword match.

そして、検索結果リストの該当コンテンツデータの開始時間位置と、前記変数に確認した時間と、を計算する(S46)。例えば、図3の場合において、キーワード「インターネット」の再生開始位置がコンテンツの最初から35秒後である場合には、35秒から所定時間である1秒を減じた34秒の位置を計算する。   Then, the start time position of the corresponding content data in the search result list and the time confirmed in the variable are calculated (S46). For example, in the case of FIG. 3, when the reproduction start position of the keyword “Internet” is 35 seconds after the beginning of the content, the position of 34 seconds is calculated by subtracting 1 second which is a predetermined time from 35 seconds.

このようにしてステップS46で計算された再生開始位置をセット(指定)して(S47)、所定の音声情報ファイルの再生指定位置から再生する(S48)。   In this way, the reproduction start position calculated in step S46 is set (designated) (S47), and reproduction is performed from the reproduction designated position of the predetermined audio information file (S48).

なお、ステップS33で前記精度向上モードを選択しなかった場合には、検索処理で得られた結果リストから該当するコンテンツデータの開始時間位置をそのまま取得して(S10b)、当該開始時間位置からそのまま再生する(S47)。例えば、図3のコンテンツデータ「ホームページ作成」においてキーワード「ホームページ」で検索した場合であれば、前記キーワードが含まれるレコードID「4」の最初の再生開始位置(即ち、コンテンツの最初から30秒の位置)から再生される。   If the accuracy improvement mode is not selected in step S33, the start time position of the corresponding content data is obtained as it is from the result list obtained by the search process (S10b), and is directly used from the start time position. Playback is performed (S47). For example, in the case of searching for the keyword “homepage” in the content data “homepage creation” in FIG. 3, the first playback start position of the record ID “4” containing the keyword (that is, 30 seconds from the beginning of the content). Play).

即ち、本発明において、精度向上モードを設けることで、適宜精度向上モードを「有効」にしたり「無効」にしたり選択することができる。精度向上モードを機能させる場合には、精度向上モードを「有効」に設定する。これにより、検索対象のレコードのタイムスタンプから再生を行い、キーワードと一致する場所を特定する。そして、一致するまでの時間とタイムスタンプの時間と、を合計した時間をユーザーに対する再生開始位置とする。   That is, in the present invention, by providing the accuracy improvement mode, the accuracy improvement mode can be appropriately selected as “valid” or “invalid”. When the accuracy improvement mode is to function, the accuracy improvement mode is set to “valid”. As a result, reproduction is performed from the time stamp of the record to be searched, and the location matching the keyword is specified. Then, the total time of the time until matching and the time of the time stamp is set as the reproduction start position for the user.

また、精度向上モードを機能させたくない場合には、精度向上モードを「無効」に設定する。これにより、検索対象のレコードのタイムスタンプから(即ち、検索対象のレコードIDの頭から)再生することになる。   If the accuracy improvement mode is not desired to function, the accuracy improvement mode is set to “invalid”. As a result, reproduction is performed from the time stamp of the record to be searched (that is, from the beginning of the record ID to be searched).

図7は、本発明に係る音声情報検索プログラムの第2実施形態におけるデータベースを登録する際の手順を示すフロー図である。この第2実施形態では、本発明における音声情報ファイルを所定文字数に基づいてデータベースに登録する。以下、本発明の第1実施形態との相違点を中心に説明する。   FIG. 7 is a flowchart showing a procedure for registering a database in the second embodiment of the voice information search program according to the present invention. In the second embodiment, the audio information file according to the present invention is registered in a database based on a predetermined number of characters. Hereinafter, the difference from the first embodiment of the present invention will be mainly described.

まず、音声ファイルのファイル情報を入力し(S1)、音声ファイルをテキスト変換する(S6)までの手順は図2と同様である。このようにしてテキスト変換された音声情報ファイルの文字数が、所定文字数(図7では、n文字数)より多いか少ないかを判断する(S7−2)。   First, the file information of the audio file is input (S1), and the procedure up to text conversion of the audio file (S6) is the same as in FIG. It is determined whether the number of characters in the voice information file converted into text in this way is larger or smaller than a predetermined number of characters (n characters in FIG. 7) (S7-2).

その結果、n文字数より少ないと判断された場合には、前記音声情報ファイルのテキスト情報がデータベースに登録される(S8a)。即ち、ステップS8aで処理される音声情報ファイルは、再生時間が所持文字数n文字数以下の短いテキストからなる音声情報ファイルである。   As a result, if it is determined that the number is less than n, the text information of the voice information file is registered in the database (S8a). That is, the audio information file processed in step S8a is an audio information file composed of short text whose reproduction time is n characters or less.

ステップS7−2での判断の結果、n文字数よりも長いと判断された場合には、音声情報ファイルの最初のn文字数の再生部分を区切って、区切られた音声情報ファイルのテキスト情報をデータベースに登録する(S8b)。そして、切り取られた音声情報ファイルの残りの部分については、再度ステップS7−2でn文字数よりも長いテキストであるか否かを判断され、最終的に、音声情報ファイルがn文字数単位で区切られる。即ち、ステップS8bで処理される音声情報ファイルは、再生情報のテキスト数が所定文字数(n文字)よりも長い音声情報ファイルである。   As a result of the determination in step S7-2, if it is determined that the number of characters is longer than n characters, the first n number of reproduction parts of the audio information file are separated, and the text information of the separated audio information file is stored in the database. Register (S8b). Then, with respect to the remaining portion of the cut voice information file, it is determined again in step S7-2 whether the text is longer than the number of n characters, and finally the voice information file is divided in units of n characters. . That is, the audio information file processed in step S8b is an audio information file in which the number of texts in the reproduction information is longer than a predetermined number of characters (n characters).

即ち、本発明において、再生された音声情報がテキスト変換されてデータベースに保存されるが、その際に、所定文字数(n文字数)の繰り返し単位でタイムスタンプを押すことで、各ユニット単位に区切って記録される。また、音声情報が前記所定文字数(n文字数)以下の短い情報量である場合には、分割されることなくタイムスタンプを押してそのまま記録される。   That is, in the present invention, the reproduced audio information is converted into text and stored in the database. At that time, by pressing a time stamp in a repeating unit of a predetermined number of characters (number of n characters), it is divided into units. To be recorded. If the audio information has a short information amount equal to or less than the predetermined number of characters (n characters), the time stamp is pressed and recorded as it is without being divided.

このように、音声情報を所定文字数で区切ることで、音声情報中の無声部分や音楽のみの部分等をカットできる。即ち、無音状態の部分等についてはレコードが作成されないため、データの肥大化を防止できる。従って、長時間のファイルであっても最小限のデータ容量でテキストデータ(音声情報がテキスト変換されたデータ)を格納することができる。この方法は、音楽や映画あるいはミュージカル等のような歌詞や台詞以外の部分を多く含む長時間の音声ファイルを対象とする場合に特に有効である。   Thus, by dividing the voice information by a predetermined number of characters, it is possible to cut the unvoiced part or the music-only part in the voice information. In other words, since no record is created for the silent portion or the like, data enlargement can be prevented. Therefore, even for a long-time file, text data (data obtained by converting voice information into text) can be stored with a minimum data capacity. This method is particularly effective when a long-time audio file including many parts other than lyrics and lines such as music, movies, or musicals is targeted.

そして、音声情報ファイルをデータベースに登録した後の、検索処理や検索結果の出力処理等については本発明に係る第1実施形態と同様の手順で行なうことができる(図5、図6等参照)。   The search process and the search result output process after the audio information file is registered in the database can be performed in the same procedure as in the first embodiment of the present invention (see FIGS. 5 and 6). .

図8は、本発明に係る音声情報検索プログラムの第3実施形態におけるデータベースを登録する際の手順を示すフロー図である。この第3実施形態では、本発明における音声情報ファイルを所定単語数に基づいてデータベースに登録する。以下、本発明の第1実施形態、第2実施形態との相違点を中心に説明する。   FIG. 8 is a flowchart showing a procedure for registering a database in the third embodiment of the speech information search program according to the present invention. In the third embodiment, the audio information file in the present invention is registered in a database based on a predetermined number of words. The following description will focus on differences from the first and second embodiments of the present invention.

まず、音声情報ファイルのファイル情報を入力し(S1)、音声情報ファイルをテキスト変換する(S6)までの手順は図2,図7と同様である。このようにしてテキスト変換された音声情報ファイルについて文節又は単語を単位として区切っていく処理を行う(S7−3)。   First, the file information of the audio information file is input (S1), and the procedure up to text conversion of the audio information file (S6) is the same as that shown in FIGS. The voice information file converted into text in this way is divided into clauses or words as a unit (S7-3).

即ち、本実施形態では、テキストを所定の文節単位あるいは単語単位で区切っていくものであり、その区切る単位は、文節単位でもよいし、単語単位でもよく、適宜選択することができる。そして、本発明では、前記文節単位や単語単位を認識する方法については特に限定されず、適宜好適な方法を用いることができる。また、区切る単位についても特に限定されず、例えば、図示はしないが所定の文節単位(または単語単位)をn文節数(またはn単語数)と設定することができ、前記区切る単位を短くすれば検索精度は高くなり、長くすれば検索速度を速くすることができ、これらを考慮して適宜好適な単位を決定できる。   That is, in the present embodiment, the text is divided into predetermined clause units or word units, and the unit for the division may be a phrase unit or a word unit, and can be selected as appropriate. And in this invention, it does not specifically limit about the method of recognizing the said phrase unit or a word unit, A suitable method can be used suitably. Also, the unit for dividing is not particularly limited. For example, although not illustrated, a predetermined phrase unit (or word unit) can be set as the number of n clauses (or n words), and the unit for dividing is shortened. The search accuracy is increased, and if the length is increased, the search speed can be increased, and a suitable unit can be appropriately determined in consideration of these.

その結果、テキスト変換された音声情報ファイルの文節数(または単語数)が、前記所定n文節数(またはn単語数)以下の場合には、再生終了とともにデータベースに登録されて処理が終了する(S8a)。即ち、ステップS8aで処理される音声情報ファイルは、再生時間が所持文節数n(所定単語数n)以下の短いテキストからなる音声情報ファイルである。   As a result, when the number of phrases (or the number of words) of the voice information file subjected to text conversion is equal to or less than the predetermined n number of phrases (or the number of words), it is registered in the database at the end of reproduction and the processing is ended ( S8a). That is, the audio information file processed in step S8a is an audio information file composed of short text whose reproduction time is the number of possessed phrases n (predetermined number of words n) or less.

ステップS7−3での判断の結果、n文節数(n単語数)よりも長いと判断された場合には、音声情報ファイルの最初のn文節数(n単語数)の再生部分を区切って、区切られた音声情報ファイルのテキスト情報をデータベースに登録する(S8b)。そして、切り取られた音声情報ファイルの残りの部分については、再度ステップS7−3でn文節(n単語数)よりも長いテキストであるか否かを判断され、最終的に、音声情報ファイルがn文節数(n単語数)単位で区切られる。即ち、ステップS8bで処理される音声情報ファイルは、再生情報のテキスト数が所定文節数(所定単語数)よりも長い音声情報ファイルである。   As a result of the determination in step S7-3, if it is determined that the number is longer than the number of n clauses (n words), the playback part of the first n phrases (n words) of the audio information file is divided, Text information of the divided audio information file is registered in the database (S8b). Then, with respect to the remaining portion of the cut voice information file, it is determined again in step S7-3 whether or not the text is longer than n clauses (n words), and finally the voice information file becomes n. It is delimited by the number of phrases (n words). That is, the audio information file processed in step S8b is an audio information file in which the number of texts in the reproduction information is longer than the predetermined number of phrases (predetermined number of words).

図9は、同第3実施形態におけるデータベースについて検索処理する際のフロー図である。即ち、図9は、図8で登録されたデータベースについて検索処理するフロー図である。以下、前記音声情報ファイルを所定時間に基づいてデータベースに登録する場合(図6等参照)との相違点について説明する。   FIG. 9 is a flowchart for performing a search process on the database according to the third embodiment. That is, FIG. 9 is a flowchart for performing the search process for the database registered in FIG. Hereinafter, differences from the case where the audio information file is registered in the database based on a predetermined time (see FIG. 6 and the like) will be described.

まず、検索条件を入力し(S9)コンテンツ基本情報テーブルからカテゴリ・言語等の所定の条件からデータを抽出する手順(S10,S11)までは、本発明の第1実施形態、第2実施形態と同様である。   First, the search condition is input (S9), and the procedure (S10, S11) for extracting data from the content basic information table from the predetermined condition such as category / language is the same as that of the first and second embodiments of the present invention. It is the same.

そして、ステップS11において抽出件数が1件以上ある場合には、該当データのコンテンツIDからコンテンツデータテーブルのテキスト内のキーワードを検索する(S49a)。即ち、コンテンツIDに対して更に検索をかけていくステップである。   If the number of extracted items is one or more in step S11, a keyword in the text of the content data table is searched from the content ID of the corresponding data (S49a). That is, it is a step of further searching the content ID.

また、ステップS11の検索結果において抽出件数0件の場合には、「該当なし」の表示をして検索は終了する(S49b)。   If the number of extractions is 0 in the search result of step S11, “N / A” is displayed and the search ends (S49b).

ステップS49aにおいてキーワード検索を行なった結果の抽出件数が1件以上あった場合には、引き続き、該当件数分をループ検索する(S51a〜S57)。また、ステップS49aにおいて、前記抽出件数が0件であった場合には、「該当なし」の表示をして検索は終了する(S49b)。   If there is one or more extraction results as a result of keyword search in step S49a, a loop search is performed for the corresponding number (S51a to S57). In step S49a, if the number of extractions is 0, “not applicable” is displayed and the search is terminated (S49b).

抽出件数1件以上あった場合には、以下のループ検索を行なう(S51a〜S57)。まず、コンテンツIDとレコードID「n」を結果リストに追加する。即ち、このステップにより、該当する音声箇所が含まれるレコードIDを特定する。更に前記結果リストから該当コンテンツIDとコンテンツ基本情報テーブルの同項目が一致するデータを取得する(S53)。続いて、取得した前記データを表示用データに変換する(S54)。例えば、ユーザーの端末機器に一覧表示して、リンクが張られた箇所をクリック等することで、そのまま該当箇所の再生を行なうことができる表示用データであってもよい。   When the number of extractions is one or more, the following loop search is performed (S51a to S57). First, the content ID and the record ID “n” are added to the result list. That is, by this step, the record ID including the corresponding voice part is specified. Further, data in which the corresponding content ID matches the same item in the content basic information table is acquired from the result list (S53). Subsequently, the acquired data is converted into display data (S54). For example, it may be display data that can be displayed as a list on the user's terminal device and the corresponding portion can be reproduced as it is by clicking on the linked portion.

前記一連のステップ(S52〜S56)を該当する件数について全て行なうループ検索を行なう(S57)。   A loop search is performed in which the series of steps (S52 to S56) is performed for all the corresponding cases (S57).

このように、本発明に係る第3実施形態のように、文節数や単語数に基づいて音声情報を区切ることで、隣接するレコードID「n」とレコードID「n+1」とを結合して検索する処理(例えば、図5のS15〜S25等参照)等を行なわなくても精度の高い音声情報検索を行なうことができる。即ち、あらかじめ意味をなす文節単位あるいは単語単位でデータベースに登録するため、レコードIDの末尾が尻切れになって登録される状態(例えば、図4のコンテンツID「1」のレコードID「2」等参照)を防止することができる。   Thus, as in the third embodiment according to the present invention, by separating the audio information based on the number of phrases and the number of words, the search is performed by combining the adjacent record ID “n” and the record ID “n + 1”. High-accuracy voice information retrieval can be performed without performing the processing (for example, see S15 to S25 in FIG. 5) or the like. That is, since it is registered in the database in a phrase unit or word unit that makes sense in advance, the record ID ends in a truncated state (for example, see record ID “2” of content ID “1” in FIG. 4 etc.) ) Can be prevented.

このように本実施例のように文節数(または単語数)に基づいて登録・処理を行うことで、音声ファイル中の無声部分等の箇所を省いてデータベースに登録できる点や、テキストデータのレコードIDを結合して検索する必要もない点等から、サーバへの負担をより軽減できるともに、より高速の検索が可能になる。   In this way, by registering and processing based on the number of phrases (or the number of words) as in this embodiment, it is possible to register in the database by omitting portions such as unvoiced parts in the audio file, and record of text data Since there is no need to search by combining IDs, the load on the server can be reduced, and a higher speed search can be performed.

図10は、同第3実施形態における検出結果を出力する際のフロー図である。即ち、図10は、図9で検索処理された検索結果を出力するフロー図である。以下、前記音声情報ファイルを所定時間に基づいてデータベースに登録する場合(図7等参照)との相違点について説明する。   FIG. 10 is a flowchart when outputting the detection result in the third embodiment. That is, FIG. 10 is a flowchart for outputting the search result obtained by the search process in FIG. Hereinafter, differences from the case where the audio information file is registered in the database based on a predetermined time (see FIG. 7 and the like) will be described.

図9で行なった検索処理で得られた結果リストから該当コンテンツデータの開始時間位置を取得する(S58)。続いて、前記コンテンツデータの開始時間をセットする(S59)。そして、セットされた開始時間から再生を行なう(S60)。   The start time position of the corresponding content data is acquired from the result list obtained by the search process performed in FIG. 9 (S58). Subsequently, the start time of the content data is set (S59). Then, reproduction is performed from the set start time (S60).

本実施形態のように文節数(または単語数)に基づいて登録・処理を行うことで、文節単位(または単語単位)でデータ登録することができるため、本発明に係る第1実施形態や第2実施形態のように検索時に精度向上モード(図6のS33等参照)を設定・選択する必要がない。従って、より早い検索処理が可能であり、かつサーバへの負担もより軽減でき、かつ精度向上モードと同様の高い検索精度での検索が可能である。更に、幅広い種類の音声情報ファイル(例えば、動画ファイル)にも対応可能であり、サーバへの負担も少ないため、より大容量のデータを幅広く扱うこともできる。   Since registration / processing is performed based on the number of phrases (or the number of words) as in the present embodiment, data can be registered in phrase units (or word units). There is no need to set / select the accuracy improvement mode (see S33 in FIG. 6) at the time of retrieval as in the second embodiment. Therefore, faster search processing can be performed, the load on the server can be further reduced, and a search with high search accuracy similar to the accuracy improvement mode can be performed. Furthermore, since it is possible to deal with a wide variety of audio information files (for example, moving image files) and the burden on the server is small, a larger amount of data can be handled widely.

以上のように、本発明において、音声情報ファイルをテキスト変換する際に所定時間単位で区切ってもよいし(図2等参照)、所定文字数で区切ってもよいし(図7等参照)、所定文節数や単語数で区切ってもよい(図8等参照)。これらは、音声情報ファイルをテキスト変換する際の処理能力や、前記テキスト変換されたファイルを文字として認識できるか、文節や単語として認識できるか等の処理能力を考慮して、適宜、選択することができる。   As described above, in the present invention, when the voice information file is converted into text, it may be divided by a predetermined time unit (see FIG. 2, etc.), may be divided by a predetermined number of characters (see FIG. 7, etc.), or predetermined It may be divided by the number of phrases or the number of words (see FIG. 8 etc.). These should be selected as appropriate in consideration of the processing capability when converting an audio information file into text and the processing capability such as whether the text-converted file can be recognized as a character or a phrase or a word. Can do.

このように、本発明では、音声情報ファイルを一定単位のテキストデータとしてデータベースに登録すること等によって、高い検索速度でありながらサーバへの負担が少なく、高い精度の音声情報検索を行なうことができる。従って、本発明は種々のデータベースにも幅広く、かつ簡易に使用できる。   As described above, in the present invention, by registering the voice information file as text data in a certain unit in the database, etc., it is possible to perform voice information search with high accuracy while reducing the burden on the server while maintaining a high search speed. . Therefore, the present invention can be used widely and easily for various databases.

図11は、本発明に係る音声情報検索システムの一例を説明するための概念図である。   FIG. 11 is a conceptual diagram for explaining an example of the voice information retrieval system according to the present invention.

本発明に係る音声情報検索システムは、テキスト変換サーバ8と、データベースサーバ9と、Webサーバ10と、音声情報ファイル格納サーバ11と、管理サーバ12とが、ネットワーク13で接続されたシステムである。   The speech information retrieval system according to the present invention is a system in which a text conversion server 8, a database server 9, a Web server 10, a speech information file storage server 11, and a management server 12 are connected via a network 13.

テキスト変換サーバ8は、音声情報ファイルをテキスト変換するとともに、コンテンツ情報ファイルを作成し、データベースに登録するサーバである。データベースサーバ9は、前記テキスト変換された情報ファイル81と、前記コンテンツ情報ファイル82と、を格納するサーバである。Webサーバ10は、ユーザーの端末91と接続され、ユーザーの端末91から入力される検索条件や、その検索結果の表示・出力する機能を発揮するサーバである。音声情報ファイル格納サーバ11は、音声情報ファイル(動画情報ファイルを含む。)を格納するサーバである。管理サーバ12は、各サーバやネットワーク13等のシステムの障害を管理するサーバである。   The text conversion server 8 is a server that converts a voice information file into text, creates a content information file, and registers it in a database. The database server 9 is a server that stores the text-converted information file 81 and the content information file 82. The Web server 10 is a server that is connected to the user terminal 91 and exhibits a search condition input from the user terminal 91 and a function of displaying and outputting the search result. The audio information file storage server 11 is a server that stores audio information files (including moving image information files). The management server 12 is a server that manages system failures such as each server and the network 13.

また、必要に応じ、精度向上モードを選択することができる。精度向上モードを機能さえる場合には、精度向上モードを「有効」に設定する。これにより、検索対象のレコードのタイムスタンプから再生を行い、キーワードと一致する場所を特定する。そして、一致するまでの時間とタイムスタンプの時間と、を合計した時間をユーザーに対する再生開始位置とする。   Further, the accuracy improvement mode can be selected as necessary. When the accuracy improvement mode is enabled, the accuracy improvement mode is set to “valid”. As a result, reproduction is performed from the time stamp of the record to be searched, and the location matching the keyword is specified. Then, the total time of the time until matching and the time of the time stamp is set as the reproduction start position for the user.

また、精度向上モードを機能させたくない場合には、精度向上モードを「無効」に設定する。これにより、検索対象のレコードのタイムスタンプから(即ち、検索対象のレコードの頭から)再生する。   If the accuracy improvement mode is not desired to function, the accuracy improvement mode is set to “invalid”. As a result, reproduction is performed from the time stamp of the record to be searched (that is, from the beginning of the record to be searched).

そして、本発明では、適宜、設定を調整すること等によって、検索所要時間を短縮させたり、検索精度を向上させたりすることで、データベースの能力を調整することができる。例えば、前記精度向上モードを有効に設定することで、音声情報の検索精度が向上し、ユーザーが所望するキーワードが出力される(発声される)位置を検出でき、より正確な再生開始位置を検索できる。一方、前記精度向上モードを無効に設定することで、精度向上モードのステップが不要であるため検索所要時間を短縮でき、かつ検索システムのサーバ等への負担も軽減できる。即ち、本発明では、検索対象の情報ファイルの種類や情報量、あるいは使用するハードウェア環境等を考慮して、適宜、検索システムを構築することが可能となる。   In the present invention, the ability of the database can be adjusted by shortening the time required for search or improving the search accuracy by adjusting settings as appropriate. For example, by setting the accuracy improvement mode to be effective, the search accuracy of voice information is improved, the position where a user's desired keyword is output (spoken) can be detected, and a more accurate playback start position is searched. it can. On the other hand, by disabling the accuracy improvement mode, the step of the accuracy improvement mode is unnecessary, so that the time required for search can be shortened and the load on the server of the search system can be reduced. That is, according to the present invention, it is possible to appropriately construct a search system in consideration of the type and amount of information file to be searched, or the hardware environment to be used.

更に、本発明において用いられるデータベースに記録される情報は音声情報ファイル(あるいは動画情報ファイル)に限定されず、例えば、テキスト情報ファイルも記録することもできる。そして、本発明では、音声情報をテキスト変換してデータベース登録するため、音声情報ファイルだけでなくテキスト情報ファイルも同時に検索対象とすることができる。即ち、本発明において、音声情報ファイルだけでなくテキスト情報ファイルも登録しておくことで、1回の検索を実行することで、音声情報ファイル(あるいは動画情報ファイル)とテキスト情報ファイルを同時に検索することができる。   Furthermore, the information recorded in the database used in the present invention is not limited to the audio information file (or moving image information file), and for example, a text information file can also be recorded. In the present invention, since voice information is converted into text and registered in the database, not only the voice information file but also the text information file can be searched simultaneously. That is, in the present invention, not only the audio information file but also the text information file is registered, so that the audio information file (or moving picture information file) and the text information file are simultaneously searched by executing one search. be able to.

また、本発明において、別途、検索実行前に検索対象を指定するステップ等を別途設けても良い。これにより、音声情報ファイルのみの検索、あるいはテキスト情報ファイルのみの検索等のようにユーザーの使用目的や使用環境等を考慮して、適宜、選択できる。   In the present invention, a step for designating a search target may be separately provided before executing the search. Thereby, it is possible to make an appropriate selection in consideration of the user's purpose of use, usage environment, and the like, such as a search for only an audio information file or a search for only a text information file.

そして、本発明では、検索処理を行う際に、複数のコンテンツを同時に検索するできる機能を設けても良い。複数のコンテンツに対して同時検索を行うことで、検索処理の所要時間を短縮することができる。この場合には、本発明で使用するコンピュータやサーバ等の処理能力等を考慮して、この機能を設けるか適宜決定できる。   And in this invention, when performing a search process, you may provide the function which can search a some content simultaneously. By performing a simultaneous search for a plurality of contents, the time required for the search process can be shortened. In this case, it is possible to appropriately determine whether to provide this function in consideration of the processing capability of the computer or server used in the present invention.

本発明に係る音声情報検索プログラムは、種々の音声情報ファイルの管理、集計、検索に用いることができ、特に、情報量の多い音声情報ファイルを管理するマルチメディア関連のデータベースや、膨大な情報ファイル数を検索対象とするインターネット上の検索エンジン等に組み込んだりして利用できる。   The audio information search program according to the present invention can be used for management, aggregation, and search of various audio information files, and in particular, a multimedia-related database for managing audio information files with a large amount of information, and a huge amount of information files The number can be incorporated into a search engine on the Internet or the like for which the number is to be searched.

本発明に係る音声情報検索プログラムを説明するための概念図である。It is a conceptual diagram for demonstrating the audio | voice information retrieval program which concerns on this invention. 本発明に係る音声情報プログラムの第1実施形態におけるデータベースを登録する際のフロー図である。It is a flowchart at the time of registering the database in 1st Embodiment of the audio | voice information program which concerns on this invention. 同第1実施形態において、データベースに登録された音声情報ファイルの基本情報テーブルを説明する概念図である。In the same 1st Embodiment, it is a conceptual diagram explaining the basic information table of the audio | voice information file registered into the database. 同第1実施形態において、データベースに登録された音声情報ファイルのコンテンツデータを説明する概念図である。In the same 1st Embodiment, it is a conceptual diagram explaining the content data of the audio | voice information file registered into the database. 同第1実施形態におけるデータベースについて検索処理する際のフロー図である。It is a flowchart at the time of searching for the database in the first embodiment. 同第1実施形態における検出結果を出力する際のフロー図である。It is a flowchart at the time of outputting the detection result in the first embodiment. 本発明に係る音声情報プログラムの第2実施形態におけるデータベースを登録する際のフロー図である。It is a flowchart at the time of registering the database in 2nd Embodiment of the audio | voice information program which concerns on this invention. 本発明に係る音声情報プログラムの第3実施形態におけるデータベースを登録する際のフロー図である。It is a flowchart at the time of registering the database in 3rd Embodiment of the audio | voice information program which concerns on this invention. 同第3実施形態におけるデータベースについて検索処理する際のフロー図である。It is a flowchart at the time of searching about the database in the same 3rd embodiment. 同第3実施形態における検出結果を出力する際のフロー図である。It is a flowchart at the time of outputting the detection result in the said 3rd Embodiment. 本発明に係る音声情報検索システムの一例を説明するための概念図である。It is a conceptual diagram for demonstrating an example of the audio | voice information retrieval system which concerns on this invention.

符号の説明Explanation of symbols

1 音声情報ファイルのテキスト変換機能
2 音声情報ファイルの再生時間測定機能
3 データベースへの登録機能
4 検索条件決定機能
5 検索処理機能
6 検索結果出力機能
7 データベース
8 テキスト変換サーバ
9 データベースサーバ
10 Webサーバ
11 音声情報ファイル格納サーバ
12 管理サーバ
13 ネットワーク
DESCRIPTION OF SYMBOLS 1 Text conversion function of voice information file 2 Playback time measurement function of voice information file 3 Registration function to database 4 Search condition determination function 5 Search processing function 6 Search result output function 7 Database 8 Text conversion server 9 Database server 10 Web server 11 Voice information file storage server 12 Management server 13 Network

Claims (9)

音声情報に記録された音声素子を文字列に変換するステップと、
前記音声情報の再生時間を測定するステップと、
音声情報の再生時間が所定時間よりも長い場合には、前記音声情報の前記文字列を所定時間ごとに区切ってデータベースに登録し、音声情報の再生時間が所定時間以下である場合には、前記音声情報の前記文字列を区切らずにデータベースに登録するステップと、
前記データベースに対して検索を行なう検索項目と、該検索項目についての検索条件と、を決定するステップと、
前記検索条件に従って、前記データベースに対して検索を実行するステップと、
前記検索の結果を出力するステップと、
を少なくともコンピュータに実行させる音声情報検索プログラム。
Converting a voice element recorded in the voice information into a character string;
Measuring the playback time of the audio information;
When the reproduction time of the audio information is longer than a predetermined time, the character string of the audio information is registered in a database divided every predetermined time, and when the reproduction time of the audio information is less than the predetermined time, Registering the voice information in the database without dividing the character string;
Determining a search item for searching the database, and a search condition for the search item;
Performing a search on the database according to the search condition;
Outputting the result of the search;
A speech information retrieval program for causing a computer to execute at least.
音声情報に記録された音声素子を文字列に変換するステップと、
前記音声情報の文字数を計測するステップと、
前記文字列の文字数が所定文字数よりも多い場合には、前記文字列を構成する文字を所定文字数ごとに区切ってデータベースに登録し、前記文字列の文字数が所定文字数以下である場合には、前記文字列を区切らずにデータベースに登録するステップと、
前記データベースに対して検索を行なう検索項目と、該検索項目についての検索条件と、を決定するステップと、
前記検索条件に従って、前記データベースに対して検索を実行するステップと、
前記検索の結果を出力するステップと、
を少なくともコンピュータに実行させる音声情報検索プログラム。
Converting a voice element recorded in the voice information into a character string;
Measuring the number of characters of the voice information;
When the number of characters in the character string is larger than a predetermined number of characters, the characters constituting the character string are divided into predetermined characters and registered in a database, and when the number of characters in the character string is equal to or less than the predetermined number of characters, Registering in the database without separating the strings;
Determining a search item for searching the database, and a search condition for the search item;
Performing a search on the database according to the search condition;
Outputting the result of the search;
A speech information retrieval program for causing a computer to execute at least.
前記データベースに対して検索を実行するために、少なくとも以下のステップをコンピュータに実行させることを特徴とする請求項1又は2に記載の音声情報検索プログラム。
(1)区切られた音声情報のうち、連続する前後2つの音声情報を結合するステップ。
(2)前記結合された2つの音声情報の文字列のなかに、検索条件で指定した文字が含まれるか判断するステップ。
(3)前記区切られた2つの音声情報のそれぞれの文字列のなかに、各音声情報の文字列に検索条件で指定した文字が含まれるか判断するステップ。
The voice information search program according to claim 1 or 2, wherein the computer is caused to execute at least the following steps in order to execute a search on the database.
(1) A step of combining two consecutive pieces of audio information before and after the divided audio information.
(2) A step of determining whether or not the character string specified by the search condition is included in the character string of the two combined voice information.
(3) A step of determining whether the character string specified by the search condition is included in the character string of each voice information in the character strings of the two divided voice information.
前記検索の結果を出力するために、少なくとも以下のステップをコンピュータに実行させることを特徴とする請求項1又は2に記載の音声情報検索プログラム。
(a)検索条件で指定した文字に対応する音声素子が記録されている音声情報の記録時間位置を指定するステップ。
(b)前記指定された記録時間位置よりも、所定時間だけ前にさかのぼった記録時間位置を再生開始位置として指定するステップ。
(c)前記指定された再生開始位置から音声再生するステップ
3. The speech information search program according to claim 1, wherein the computer executes at least the following steps in order to output the search result. 4.
(A) A step of designating a recording time position of voice information in which a voice element corresponding to the character designated by the search condition is recorded.
(B) A step of designating a recording time position that goes back a predetermined time before the designated recording time position as a reproduction start position.
(C) Step of reproducing sound from the designated reproduction start position
請求項1〜4のいずれか一項記載の音声情報検索プログラムが記録されたコンピュータ読取可能な記録媒体。   A computer-readable recording medium in which the voice information retrieval program according to any one of claims 1 to 4 is recorded. 音声情報に記録された音声素子を文字列に変換する手段と、
前記音声情報の再生時間の測定手段と、
音声情報の再生時間が所定時間よりも長い場合には、前記音声情報の前記文字列を所定時間ごとに区切ってデータベースに登録し、音声情報の再生時間が所定時間以下である場合には、前記音声情報の前記文字列を区切らずにデータベースに登録する手段と、
前記データベースに対して検索を行なう検索項目と、該検索項目についての検索条件の決定手段と、
前記検索条件に従って、前記データベースに対して検索を実行する手段と、
前記検索の結果の出力手段と、
を少なくとも備えた音声情報検索システム。
Means for converting a voice element recorded in voice information into a character string;
Means for measuring the playback time of the audio information;
When the reproduction time of the audio information is longer than a predetermined time, the character string of the audio information is registered in a database divided every predetermined time, and when the reproduction time of the audio information is less than the predetermined time, Means for registering the voice information in the database without dividing the character string;
A search item for performing a search on the database; a search condition determining means for the search item;
Means for performing a search on the database according to the search condition;
Means for outputting the search results;
Voice information retrieval system comprising at least
音声情報に記録された音声素子を文字列に変換する手段と、
前記音声情報の文字数の計測手段と、
前記文字列の文字数が所定文字数よりも多い場合には、前記文字列を構成する文字を所定文字数ごとに区切ってデータベースに登録し、前記文字列の文字数が所定文字数以下である場合には、前記文字列を区切らずにデータベースに登録する手段と、
前記データベースに対して検索を行なう検索項目と、該検索項目についての検索条件と、を決定する手段と、
前記検索条件に従って、前記データベースに対して検索を実行する手段と、
前記検索の結果を出力する手段と、
を少なくとも備えた音声情報検索システム。
Means for converting a voice element recorded in voice information into a character string;
A means for measuring the number of characters of the voice information;
When the number of characters in the character string is larger than a predetermined number of characters, the characters constituting the character string are divided into predetermined characters and registered in a database, and when the number of characters in the character string is equal to or less than the predetermined number of characters, A means of registering in the database without separating strings,
Means for determining a search item for searching the database, and a search condition for the search item;
Means for performing a search on the database according to the search condition;
Means for outputting the search result;
Voice information retrieval system comprising at least
音声情報に記録された音声素子を文字列に変換する手順と、
前記音声情報の再生時間を測定する手順と、
音声情報の再生時間が所定時間よりも長い場合には、前記音声情報の前記文字列を所定時間ごとに区切ってデータベースに登録し、音声情報の再生時間が所定時間以下である場合には、前記音声情報の前記文字列を区切らずにデータベースに登録する手順と、
前記データベースに対して検索を行なう検索項目と、該検索項目についての検索条件と、を決定する手順と、
前記検索条件に従って、前記データベースに対して検索を実行する手順と、
前記検索の結果を出力する手順と、
を少なくとも備えた音声情報検索方法。
A procedure for converting a voice element recorded in voice information into a character string;
Measuring the playback time of the audio information;
When the reproduction time of the audio information is longer than a predetermined time, the character string of the audio information is registered in a database divided every predetermined time, and when the reproduction time of the audio information is less than the predetermined time, A procedure for registering the voice information in the database without dividing the character string;
A procedure for determining a search item for searching the database and a search condition for the search item;
Performing a search on the database according to the search condition;
Outputting the search results;
Voice information retrieval method comprising at least
音声情報に記録された音声素子を文字列に変換する手順と、
前記音声情報の文字数を計測する手順と、
前記文字列の文字数が所定文字数よりも多い場合には、前記文字列を構成する文字を所定文字数ごとに区切ってデータベースに登録し、前記文字列の文字数が所定文字数以下である場合には、前記文字列を区切らずにデータベースに登録する手順と、
前記データベースに対して検索を行なう検索項目と、該検索項目についての検索条件と、を決定する手順と、
前記検索条件に従って、前記データベースに対して検索を実行する手順と、
前記検索の結果を出力する手順と、
を少なくとも備えた音声情報検索方法。
A procedure for converting a voice element recorded in voice information into a character string;
A procedure for measuring the number of characters of the voice information;
When the number of characters in the character string is larger than a predetermined number of characters, the characters constituting the character string are divided into predetermined characters and registered in a database, and when the number of characters in the character string is equal to or less than the predetermined number of characters, The procedure to register in the database without separating the character string,
A procedure for determining a search item for searching the database and a search condition for the search item;
Performing a search on the database according to the search condition;
Outputting the search results;
Voice information retrieval method comprising at least
JP2006277026A 2006-10-10 2006-10-10 Voice information retrieval program, recording medium thereof, voice information retrieval system, and method for retrieving voice information Pending JP2008097232A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006277026A JP2008097232A (en) 2006-10-10 2006-10-10 Voice information retrieval program, recording medium thereof, voice information retrieval system, and method for retrieving voice information
PCT/JP2007/069655 WO2008044669A1 (en) 2006-10-10 2007-10-09 Audio information search program and its recording medium, audio information search system, and audio information search method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006277026A JP2008097232A (en) 2006-10-10 2006-10-10 Voice information retrieval program, recording medium thereof, voice information retrieval system, and method for retrieving voice information

Publications (1)

Publication Number Publication Date
JP2008097232A true JP2008097232A (en) 2008-04-24

Family

ID=39282862

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006277026A Pending JP2008097232A (en) 2006-10-10 2006-10-10 Voice information retrieval program, recording medium thereof, voice information retrieval system, and method for retrieving voice information

Country Status (2)

Country Link
JP (1) JP2008097232A (en)
WO (1) WO2008044669A1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010055259A (en) * 2008-08-27 2010-03-11 Konica Minolta Business Technologies Inc Image processing apparatus, image processing program, and image processing method
CN106021249A (en) * 2015-09-16 2016-10-12 展视网(北京)科技有限公司 Method and system for voice file retrieval based on content
JP2017111339A (en) * 2015-12-17 2017-06-22 ソースネクスト株式会社 Voice reproduction device, voice reproduction method, and program

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797632B (en) * 2019-04-04 2023-10-27 北京猎户星空科技有限公司 Information processing method and device and electronic equipment

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6345252B1 (en) * 1999-04-09 2002-02-05 International Business Machines Corporation Methods and apparatus for retrieving audio information using content and speaker information
JP2002157112A (en) * 2000-11-20 2002-05-31 Teac Corp Voice information converting device
JP2006054517A (en) * 2004-08-09 2006-02-23 Bank Of Tokyo-Mitsubishi Ltd Information presenting apparatus, method, and program

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010055259A (en) * 2008-08-27 2010-03-11 Konica Minolta Business Technologies Inc Image processing apparatus, image processing program, and image processing method
US9093074B2 (en) 2008-08-27 2015-07-28 Konica Minolta Business Technologies, Inc. Image processing apparatus, image processing program and image processing method
CN106021249A (en) * 2015-09-16 2016-10-12 展视网(北京)科技有限公司 Method and system for voice file retrieval based on content
JP2017111339A (en) * 2015-12-17 2017-06-22 ソースネクスト株式会社 Voice reproduction device, voice reproduction method, and program

Also Published As

Publication number Publication date
WO2008044669A1 (en) 2008-04-17

Similar Documents

Publication Publication Date Title
JP4997601B2 (en) WEB site system for voice data search
US10096145B2 (en) Method and system for assembling animated media based on keyword and string input
Pavel et al. Sceneskim: Searching and browsing movies using synchronized captions, scripts and plot summaries
US8583418B2 (en) Systems and methods of detecting language and natural language strings for text to speech synthesis
US8862473B2 (en) Comment recording apparatus, method, program, and storage medium that conduct a voice recognition process on voice data
KR100612169B1 (en) Database annotation and retrieval
US8374845B2 (en) Retrieving apparatus, retrieving method, and computer program product
US20100274667A1 (en) Multimedia access
US20130294746A1 (en) System and method of generating multimedia content
US10755040B2 (en) Method and system for semantically generating and digitally publishing articles
US9020811B2 (en) Method and system for converting text files searchable text and for processing the searchable text
US10860638B2 (en) System and method for interactive searching of transcripts and associated audio/visual/textual/other data files
US20060047647A1 (en) Method and apparatus for retrieving data
Kamabathula et al. Automated tagging to enable fine-grained browsing of lecture videos
JP3545824B2 (en) Data retrieval device
US9305119B1 (en) System, apparatus and method for determining correct metadata from community-submitted data
JP4064902B2 (en) Meta information generation method, meta information generation device, search method, and search device
US20090083227A1 (en) Retrieving apparatus, retrieving method, and computer program product
JP2008097232A (en) Voice information retrieval program, recording medium thereof, voice information retrieval system, and method for retrieving voice information
Goto et al. PodCastle and Songle: Crowdsourcing-Based Web Services for Retrieval and Browsing of Speech and Music Content.
JP2007156286A (en) Information recognition device and information recognizing program
Lindsay et al. Representation and linking mechanisms for audio in MPEG-7
JP2006338550A (en) Device and method for creating meta data
JP6530002B2 (en) CONTENT SEARCH DEVICE, CONTENT SEARCH METHOD, PROGRAM
US20120197841A1 (en) Synchronizing data to media