JP2009134774A - Terminal device, information distribution device, information distribution system and program - Google Patents

Terminal device, information distribution device, information distribution system and program Download PDF

Info

Publication number
JP2009134774A
JP2009134774A JP2009074660A JP2009074660A JP2009134774A JP 2009134774 A JP2009134774 A JP 2009134774A JP 2009074660 A JP2009074660 A JP 2009074660A JP 2009074660 A JP2009074660 A JP 2009074660A JP 2009134774 A JP2009134774 A JP 2009134774A
Authority
JP
Japan
Prior art keywords
information
symbol
position information
procedure
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009074660A
Other languages
Japanese (ja)
Other versions
JP4978810B2 (en
Inventor
Takuichi Nishimura
拓一 西村
Masanori Ihara
正典 伊原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Sharp Corp
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST, Sharp Corp filed Critical National Institute of Advanced Industrial Science and Technology AIST
Priority to JP2009074660A priority Critical patent/JP4978810B2/en
Publication of JP2009134774A publication Critical patent/JP2009134774A/en
Application granted granted Critical
Publication of JP4978810B2 publication Critical patent/JP4978810B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a new terminal device, information distribution device, information distribution system and program by which database registration and database search of various pieces of information such as town information can be carried out easily and accurately by anyone. <P>SOLUTION: In an information distribution system configured to connect a terminal device and an information distribution device, the terminal device extracts or converts, from an obtained speech, any symbol information of rhyme, phoneme, phonemic segment, continuous phonemic segments and VQ code and distributes position information and the symbol information extracted or converted by a symbol extraction section to an information distribution device. The information distribution device receives the symbol information and the position information transmitted from the terminal device, uses symbol stream information constituted of the symbol information and the position key as a search key, searches for various kinds of information relating to the search key from a database through statistical processing based on the position information and transmits a result of the search to the terminal device. <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

本発明は、端末装置、情報配信装置、情報配信システムおよびプログラムに関するものである。さらに詳しくは、本発明は、市街情報などの各種データベースへの登録及びデータベースからの検索を簡単に行うことのできる、新しい端末装置、情報配信装置、情報配信システムおよびプログラムに関するものである。   The present invention relates to a terminal device, an information distribution device, an information distribution system, and a program. More specifically, the present invention relates to a new terminal device, information distribution device, information distribution system, and program that can easily perform registration in various databases such as city information and search from the database.

一般的に、市街情報などの各種情報のデータベースへの登録やデータベースからの検索を行うシステムにおいて、その情報は、カーナビゲーションの地図やインターネット上の地図などのように、電子化された図面データや文字記号データにより構成されている。   In general, in a system for registering various types of information such as city information in a database and searching from the database, the information can be converted into electronic drawing data such as a car navigation map or an Internet map. It consists of character symbol data.

しかしながら、一般的に情報の電子化作業は、キーボードやマウスなどの入力用装置、画像取込み装置、専用の地図読込プログラムなどの電子化用の各種装置の操作に慣れた熟練者が正確に行う必要があり、誰にでも簡単に電子化してデータベースへ入力し登録できるというわけではない。このことは市街情報であっても同様である。   However, in general, digitization of information must be performed accurately by experts who are familiar with the operation of various devices for digitization, such as input devices such as keyboards and mice, image capture devices, and dedicated map reading programs. However, not everyone can easily digitize and input to the database to register. The same applies to city information.

また、データベースからの検索も、たとえばコンピュータのキーボード入力などが必要であり、それらの操作に不慣れな人にとってはやはり不便である。   Searching from the database also requires, for example, computer keyboard input, which is inconvenient for those who are unfamiliar with these operations.

また、昨今、携帯電話などの携帯端末で市街情報を検索し取得できるようにもなってきているが、操作に不慣れな人にとってはもちろんのこと、操作に慣れている人にとっても小さな入力キーでは時間がかかり、簡単な作業とは言えない。   Recently, it has become possible to search and acquire city information on a mobile terminal such as a mobile phone, but not only for those who are unfamiliar with the operation, but also for those who are accustomed to the operation with a small input key It takes time and is not an easy task.

そこで、音声入力を利用して登録や検索を行う方法も考えられるが、従来の音声認識技術では固有名詞や造語、短縮された表現や俗語のような辞書に登録されていない単語の認識に関しては単語データへの変換精度が低く、特に固有名詞が頻繁に用いられる市街情報については認識精度が非常に低いという問題がある。   Therefore, it is possible to register and search using speech input, but with conventional speech recognition technology, recognition of words that are not registered in dictionaries such as proper nouns, coined words, shortened expressions, and slang terms. There is a problem that recognition accuracy is very low especially for city information in which proper nouns are frequently used, with low conversion accuracy to word data.

本発明は、以上のとおりの事情に鑑みてなされたものであり、市街情報を代表とする各種情報のデータベースへの登録およびデータベースからの検索を、誰でも簡単にかつ精度良く行うことのできる、新しい端末装置、情報配信装置、情報配信システムおよびプログラムを提供することを課題としている。   The present invention has been made in view of the circumstances as described above, and anyone can easily and accurately perform registration and search from a database of various information represented by city information. It is an object to provide a new terminal device, information distribution device, information distribution system, and program.

本発明は、上記の課題を解決するものとして、第1には、位置情報を取得する位置情報取得部と、音声を入力する音声入力部と、前記音声入力部から得られた音声から、音韻、音素、音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する記号抽出部と、前記位置情報取得部で取得した前記位置情報と前記記号抽出部で抽出ないし変換された前記記号情報とを送信する通信制御部を備えた端末装置であって、前記通信制御部によって送信された前記記号情報によって構成された記号列情報と前記位置情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索することを特徴とする端末装置を提供する。   In order to solve the above problems, the present invention firstly includes a position information acquisition unit that acquires position information, a voice input unit that inputs voice, and a phoneme from a voice obtained from the voice input unit. , A phoneme, a phoneme piece, a continuous phoneme piece, and a symbol extraction unit that extracts or converts any symbol information of the VQ code, and the position information acquired by the position information acquisition unit and the symbol extraction unit extracts or converts A terminal device including a communication control unit for transmitting the symbol information that has been transmitted, using the symbol string information and the position information configured by the symbol information transmitted by the communication control unit as a search key, A terminal device is provided, wherein various information associated with a search key is searched from a database by statistical processing based on the position information.

第2には、位置情報を取得する位置情報取得部と、音声を入力する音声入力部と、前記音声入力部から得られた音声から、音韻、音素、音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する記号抽出部と、画像を入力する画像入力部と、前記画像入力部から得られた画像から、画像特徴情報を抽出する画像特徴抽出部と、前記位置情報取得部で取得した前記位置情報と前記記号抽出部で抽出ないし変換された前記記号情報と前記画像特徴抽出部で抽出した前記画像特徴情報とを送信する通信制御部を備えた端末装置であって、前記より送信された前記記号情報によって構成された記号列情報と前記位置情報と前記画像特徴情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索することを特徴とする端末装置を提供する。   Second, a position information acquisition unit that acquires position information, a voice input unit that inputs voice, and a phoneme, phoneme, phoneme piece, continuous phoneme piece, and VQ code from the voice obtained from the voice input unit. A symbol extraction unit that extracts or converts any of the symbol information, an image input unit that inputs an image, an image feature extraction unit that extracts image feature information from an image obtained from the image input unit, and A terminal device including a communication control unit that transmits the position information acquired by the position information acquisition unit, the symbol information extracted or converted by the symbol extraction unit, and the image feature information extracted by the image feature extraction unit. The symbol string information constituted by the symbol information transmitted from the position, the position information, and the image feature information are used as a search key, and the search key is obtained by statistical processing based on the position information. Providing a terminal device, characterized in that to search for communicating Tagged various information from the database.

第3には、位置情報を取得する位置情報取得部と、音声を入力する音声入力部と、前記音声入力部から得られた音声から、音韻、音素、音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する記号抽出部と、前記位置情報取得部で取得した前記位置情報と、前記記号抽出部で抽出ないし変換された前記記号情報とを送信する通信制御部とを備えた端末装置により送信された前記記号情報と前記位置情報とを受信する受信部と、前記記号情報によって構成された記号列情報と前記位置情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索し前記端末装置に検索結果を送信する送信部を備えることを特徴とする情報配信装置を提供する。   Third, a position information acquisition unit that acquires position information, a voice input unit that inputs voice, and a phoneme, phoneme, phoneme piece, continuous phoneme piece, and VQ code from the voice obtained from the voice input unit. A symbol extraction unit that extracts or converts any of the symbol information, a communication control unit that transmits the position information acquired by the position information acquisition unit, and the symbol information extracted or converted by the symbol extraction unit A receiving unit that receives the symbol information and the position information transmitted by a terminal device including: a symbol string information configured by the symbol information and the position information as search keys, and the position information There is provided an information distribution apparatus comprising a transmission unit that searches various information associated with a search key by a statistical process based on a database and transmits a search result to the terminal device .

第4には、位置情報を取得する位置情報取得部と、音声を入力する音声入力部と、前記音声入力部から得られた音声から、音韻、音素、音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する記号抽出部と、画像を入力する画像入力部と、前記画像入力部から得られた画像から、画像特徴情報を抽出する画像特徴抽出部と、前記位置情報取得部で取得した前記位置情報と前記記号抽出部で抽出ないし変換された前記記号情報と前記画像特徴抽出部で抽出した前記画像特徴情報とを送信する通信制御部とを備えた端末装置により送信された前記記号情報と前記位置情報と前記画像特徴情報とを受信する受信部と、前記記号情報によって構成された記号列情報と前記位置情報と前記画像特徴情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索し前記端末装置に検索結果を送信する送信部を備えることを特徴とする情報配信装置を提供する。   Fourth, a location information acquisition unit that acquires location information, a speech input unit that inputs speech, and speech obtained from the speech input unit, phonemes, phonemes, phonemes, continuous phonemes, and VQ codes A symbol extraction unit that extracts or converts any of the symbol information, an image input unit that inputs an image, an image feature extraction unit that extracts image feature information from an image obtained from the image input unit, and A terminal device comprising: a communication control unit that transmits the position information acquired by the position information acquisition unit, the symbol information extracted or converted by the symbol extraction unit, and the image feature information extracted by the image feature extraction unit. A receiving unit that receives the symbol information, the position information, and the image feature information transmitted by the receiver, and a symbol string information that is configured by the symbol information, the position information, and the image feature information. Used to provide information distribution apparatus, characterized in that it comprises a transmission unit which retrieves various information associated with the search key by a statistical process based on the position information from the database and transmits the search result to the terminal device.

第5には、端末装置と情報配信装置を接続可能に構成された情報配信システムであって、前記端末装置が、位置情報を取得する位置情報取得部と、音声を入力する音声入力部と、前記音声入力部から得られた音声から、音韻、音素、音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する記号抽出部と、前記位置情報取得部で取得した前記位置情報と前記記号抽出部で抽出ないし変換された前記記号情報とを送信する通信制御部を備え、前記情報配信装置が、前記端末装置により送信された前記記号情報と前記位置情報とを受信する受信部と、前記記号情報によって構成された記号列情報と前記位置情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索し前記端末装置に検索結果を送信する送信部を備えることを特徴とする情報配信システムを提供する。   Fifth, an information distribution system configured to connect a terminal device and an information distribution device, wherein the terminal device acquires a position information acquisition unit that acquires position information, a voice input unit that inputs voice, Acquired from the speech obtained from the speech input unit by a symbol extraction unit that extracts or converts any symbol information of phonemes, phonemes, phonemes, continuous phonemes and VQ codes, and the position information acquisition unit A communication control unit configured to transmit the position information and the symbol information extracted or converted by the symbol extraction unit, wherein the information distribution device receives the symbol information and the position information transmitted by the terminal device; Various pieces of information associated with the search key by statistical processing based on the position information, using the receiver, the symbol string information configured by the symbol information, and the position information as search keys. Providing information distribution system comprising: a transmission unit that retrieves from the database and transmits the search result to the terminal device.

第6には、端末装置と情報配信装置を接続可能に構成された情報配信システムであって、前記端末装置が、位置情報を取得する位置情報取得部と、音声を入力する音声入力部と、前記音声入力部から得られた音声から、音韻、音素、音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する記号抽出部と、画像を入力する画像入力部と、前記画像入力部から得られた画像から、画像特徴情報を抽出する画像特徴抽出部と、前記位置情報取得部で取得した前記位置情報と前記記号抽出部で抽出ないし変換された前記記号情報と、前記画像特徴抽出部で抽出した前記画像特徴情報とを送信し、また前記情報配信装置からの情報を受信する通信制御部とを備え、前記情報配信装置が、前記端末装置により送信された前記記号情報と前記位置情報と前記画像特徴情報とを受信する受信部と、前記記号情報によって構成された記号列情報と前記位置情報と前記画像特徴情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索し前記端末装置に検索結果を送信する送信部を備えることを特徴とする情報配信システムを提供する。   Sixth, an information distribution system configured to connect a terminal device and an information distribution device, wherein the terminal device acquires a position information acquisition unit that acquires position information, a voice input unit that inputs voice, A symbol extraction unit that extracts or converts any symbol information of phonemes, phonemes, phonemes, continuous phonemes and VQ codes from the speech obtained from the speech input unit; and an image input unit that inputs an image; An image feature extraction unit that extracts image feature information from the image obtained from the image input unit, the position information acquired by the position information acquisition unit, and the symbol information extracted or converted by the symbol extraction unit A communication control unit that transmits the image feature information extracted by the image feature extraction unit and receives information from the information distribution device, and before the information distribution device is transmitted by the terminal device. A receiving unit that receives symbol information, the position information, and the image feature information; a symbol string information that is configured by the symbol information, the position information, and the image feature information as search keys; and based on the position information There is provided an information distribution system comprising a transmitting unit that searches various information associated with a search key by statistical processing from a database and transmits a search result to the terminal device.

第7には、コンピュータに、取得した位置情報を受け付ける手順1、音声の入力を受け付ける手順2、手順2で受け付けた音声から、音韻、音素、音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する手順3、手順1で受け付けた前記位置情報と、手順3で抽出ないし変換された前記記号情報とを送信する手順4、手順4で送信された前記記号情報によって構成された記号列情報と前記位置情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索する手順5を実行させるためのプログラムを提供する。   Seventh, the procedure 1 for receiving the acquired position information, the procedure 2 for receiving the input of speech, the phoneme received in the procedure 2, any of phonemes, phonemes, phonemes, continuous phonemes, and VQ codes Step 3 for extracting or converting the symbol information, Step 4 for transmitting the position information received in Step 1 and the symbol information extracted or converted in Step 3, and the symbol information transmitted in Step 4 Provided is a program for executing step 5 for searching various information associated with a search key from a database by statistical processing based on the position information, using the configured symbol string information and the position information as a search key. .

第8には、コンピュータに、取得した位置情報を受け付ける手順1、音声の入力を受け付ける手順2、画像の入力を受け付ける手順3、手順2で受け付けた音声から、音韻、音素音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する手順4、手順3で受け付けた画像から画像特徴情報を抽出する手順5、手順1で受け付けた前記位置情報と手順4で抽出ないし変換された前記記号情報と手順5で抽出した前記画像特徴情報とを送信する手順6、手順6で送信された前記記号情報によって構成された記号列情報と前記位置情報と前記画像特徴情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索する手順7を実行させるためのプログラムを提供する。   Eighth, the procedure 1 for accepting the acquired position information, the procedure 2 for accepting the input of speech, the procedure 3 for accepting the input of the image, the phoneme, the phoneme phoneme segment, the continuous phoneme segment from the speech accepted in the procedure 2 Step 4 for extracting or converting symbol information of any one of the VQ code and Step 5 for extracting image feature information from the image received in Step 3, and extracting or converting the position information received in Step 1 and Step 4 Step 6 for transmitting the received symbol information and the image feature information extracted in Step 5, and searching for the symbol string information, the position information, and the image feature information composed of the symbol information transmitted in Step 6 Used as a key, a process for executing step 7 for searching various information associated with the search key from the database by statistical processing based on the position information. To provide a gram.

第9には、コンピュータに、位置情報を取得する位置情報取得部と、音声を入力する音声入力部と、前記音声入力部から得られた音声から、音韻、音素、音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する記号抽出部と、前記位置情報取得部で取得した前記位置情報と、前記記号抽出部で抽出ないし変換された前記記号情報とを送信する通信制御部とを備えた端末装置により送信された前記記号情報と前記位置情報とを受信する手順1、前記記号情報によって構成された記号列情報と前記位置情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索し前記端末装置に検索結果を送信する手順2を実行させるためのプログラムを提供する。   Ninth, a position information acquisition unit that acquires position information, a voice input unit that inputs voice, a phoneme, a phoneme, a phoneme piece, a continuous phoneme piece, and a voice obtained from the voice input unit; A symbol extracting unit that extracts or converts any symbol information of the VQ code, the position information acquired by the position information acquiring unit, and the symbol information extracted or converted by the symbol extracting unit are transmitted. Procedure 1 for receiving the symbol information and the position information transmitted by a terminal device including a communication control unit, the symbol string information constituted by the symbol information and the position information as search keys, and the position A program for executing step 2 for searching various information associated with a search key by a statistical process based on information from a database and transmitting a search result to the terminal device Subjected to.

第10には、コンピュータに、位置情報を取得する位置情報取得部と、音声を入力する音声入力部と、前記音声入力部から得られた音声から、音韻、音素、音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する記号抽出部と、画像を入力する画像入力部と、前記画像入力部から得られた画像から、画像特徴情報を抽出する画像特徴抽出部と、前記位置情報取得部で取得した前記位置情報と前記記号抽出部で抽出ないし変換された前記記号情報と前記画像特徴抽出部で抽出した前記画像特徴情報とを送信する通信制御部とを備えた端末装置により送信された前記記号情報と前記位置情報と前記画像特徴情報とを受信する手順1、前記記号情報によって構成された記号列情報と前記位置情報と前記画像特徴情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索し前記端末装置に検索結果を送信する手順2を実行させるためのプログラムを提供する。   Tenth, a position information acquisition unit that acquires position information, a voice input unit that inputs voice, and a phoneme, phoneme, phoneme piece, continuous phoneme piece, and voice obtained from the voice input unit; A symbol extraction unit that extracts or converts any symbol information of the VQ code, an image input unit that inputs an image, and an image feature extraction unit that extracts image feature information from an image obtained from the image input unit And a communication control unit for transmitting the position information acquired by the position information acquisition unit, the symbol information extracted or converted by the symbol extraction unit, and the image feature information extracted by the image feature extraction unit. Procedure 1 for receiving the symbol information, the position information, and the image feature information transmitted by the terminal device, the symbol string information composed of the symbol information, the position information, and the image feature information Used as a search key, it provides a program for executing the steps 2 to search a variety of information associated with the search key by a statistical process based on the position information from the database and transmits the search result to the terminal device.

第11には、端末装置と情報配信装置を接続可能に構成された情報配信システムのためのプログラムであって、コンピュータに、取得した位置情報を受け付ける手順1、音声の入力を受け付ける手順2、手順2で受け付けた音声から、音韻、音素、音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する手順3、手順1で受け付けた前記位置情報と、手順3で抽出ないし変換された前記記号情報とを前記情報配信装置に送信する手順4を実行させるとともに、前記端末装置により送信された前記記号情報と前記位置情報とを受信する手順5、前記記号情報によって構成された記号列情報と前記位置情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索し前記端末装置に検索結果を送信する手順6を実行させるためのプログラムを提供する。   11thly, it is a program for the information delivery system comprised so that a terminal device and an information delivery apparatus can be connected, Comprising: Procedure 1 which receives the acquired positional information in a computer, Procedure 2 which receives the input of an audio | voice, Procedure Step 3 for extracting or converting any symbol information of phoneme, phoneme, phoneme piece, continuous phoneme piece and VQ code from the voice received in Step 2, the position information received in Step 1, and the step 3 Or the procedure 5 for transmitting the converted symbol information to the information distribution device and the procedure 5 for receiving the symbol information and the position information transmitted by the terminal device. The symbol string information and the position information are used as search keys, and various types of information associated with the search keys are obtained by statistical processing based on the position information. It searches the database to provide a program for executing the steps 6 to send the search results to the terminal device.

第12には、端末装置と情報配信装置を接続可能に構成された情報配信システムのためのプログラムであって、コンピュータに、取得した位置情報を受け付ける手順1、音声の入力を受け付ける手順2、画像の入力を受け付ける手順3、手順2で受け付けた音声から音韻、音素音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する手順4、手順3で受け付けた画像から画像特徴情報を抽出する手順5、手順1で受け付けた前記位置情報と手順4で抽出ないし変換された前記記号情報と手順5で抽出した前記画像特徴情報とを送信する手順6、前記位端末装置より送信された前記位置情報と前記記号情報と前記画像情報を受信する手順7、前記記号情報によって構成された記号列情報と前記位置情報と前記画像特徴情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索し前記端末装置に検索結果を送信する手順8を実行させるためのプログラムを提供する。   Twelfth, a program for an information distribution system configured to be able to connect a terminal device and an information distribution apparatus, the procedure 1 for receiving the acquired position information, the procedure 2 for receiving an input of sound, and an image Step 3 for receiving input, Step 4 for extracting or converting any symbol information of phoneme, phoneme phoneme piece, continuous phoneme piece, and VQ code from the voice received in Step 2 from the image received in Step 3 Procedure 5 for extracting feature information, Procedure 6 for transmitting the position information received in procedure 1, the symbol information extracted or converted in procedure 4 and the image feature information extracted in procedure 5, from the terminal device Step 7 for receiving the transmitted position information, the symbol information, and the image information, the symbol string information composed of the symbol information, the position information, and the image Provided is a program for executing step 8 for searching various information associated with a search key from a database by statistical processing based on the position information and transmitting the search result to the terminal device using feature information as a search key To do.

以上詳しく説明したとおり、本発明によって、市街情報を代表とする各種情報のデータベースへの登録およびデータベースからの検索を、誰でも簡単にかつ精度良く行うことのできる新しい情報配信システム、ならびにそれに用いられる端末装置および情報配信装置が提供される。これにより、手間を要するラベリング作業を、音声と位置に関する情報に基づいて関連付けすることにより、都市データベースを構築することが可能となり、生活者に対する情報支援を実現することにより、生活利便性の向上を図ることも可能である。   As described above in detail, according to the present invention, a new information distribution system in which anyone can easily and accurately perform registration and search from a database of various types of information represented by city information, and is used for the system. A terminal device and an information distribution device are provided. This makes it possible to construct a city database by associating labor-intensive labeling work based on information related to voice and position, and to improve life convenience by realizing information support for consumers. It is also possible to plan.

本発明におけるデータベースへの登録の流れを示す図である。It is a figure which shows the flow of registration to the database in this invention. 本発明におけるデータベースからの検索の流れを示す図である。It is a figure which shows the flow of the search from the database in this invention. 本発明における携帯情報端末(端末局)の一実施形態を示す機能ブロック図である。It is a functional block diagram which shows one Embodiment of the portable information terminal (terminal station) in this invention. 図4(A)は、本発明における情報処理装置(基地局)の一実施形態を示す機能ブロック図であり、図4(B)は、本発明における情報提供システムの一実施形態を示すシステム構成図である。4A is a functional block diagram showing an embodiment of an information processing apparatus (base station) in the present invention, and FIG. 4B is a system configuration showing an embodiment of an information providing system in the present invention. FIG. 本発明におけるデータベースへの登録処理のより具体的なフローチャート図である。It is a more specific flowchart figure of the registration process to the database in this invention. 本発明におけるデータベースのデータ構成例を示す図である。It is a figure which shows the data structural example of the database in this invention. 本発明におけるデータベースからの検索処理のより具体的なフローチャート図である。It is a more specific flowchart figure of the search process from the database in this invention.

本発明の実施の形態について説明する前に、まず、本発明の発明者の行った考察について説明する。   Before describing the embodiment of the present invention, first, considerations made by the inventors of the present invention will be described.

発明者は、特に地名などには特有の固有名詞が多く用いられており、声を入力しこれを単語に変換する際の変換効率・変換精度が良くないという状況と、携帯情報端末においてはキーによる文字入力が困難であるという状況に鑑み、誤認識の発生しやすい単語レベルの音声認識を行うのではなく、より音声波形に近い音声特徴や音素特徴などの記号列、つまり「音素列」を音声情報として用いて市街情報の入力を行うことで、効率的な情報の入力を実現できると考えた。   The inventor often uses unique proper nouns for place names and the like, and the situation where the conversion efficiency and conversion accuracy when inputting voice and converting it into words is not good. In consideration of the situation where it is difficult to input characters by using a word sequence, it is not necessary to perform word-level speech recognition, which is prone to misrecognition. We thought that efficient information input could be realized by inputting city information as voice information.

「音素」とは、音声を構成する要素である母音や子音を指し、ここではこの音素として「音素片」や「連続音素片」を考慮してもよい。「音素片」とは、1つの音素をより細かく分割した要素である。「連続音素片」とは、音素片の連続状態を示した情報、たとえば「あ」の始端、「あ」の中盤、「あ」の終端と分割した音素片の変化を踏まえて、どのようにこれらの要素が繋がるかを示した情報である。そして「音素列」とは、これら音素が並んだ列を指す。   A “phoneme” refers to a vowel or consonant that is a component of speech, and here, a “phoneme piece” or a “continuous phoneme piece” may be considered as this phoneme. A “phoneme piece” is an element obtained by finely dividing one phoneme. “Consecutive phoneme” means how to show the continuous state of phoneme, for example, the start of “A”, the middle of “A”, the end of “A” and the change of divided phoneme. It is information indicating whether these elements are connected. The “phoneme string” refers to a line in which these phonemes are arranged.

このような「音素列」を音声情報として用い、これと音声が発話された際の携帯情報端末の位置や方向などの位置情報とを関連付けして、さらには携帯情報端末に付属する撮像装置や携帯情報端末にデータ提供可能な別体の撮像装置などにより撮影された近隣の画像情報とを関連付けして情報のデータベースへの登録やデータベースからの検索などの管理を行う情報処理装置に提供するようにすれば、情報登録および情報検索を簡単にかつ高精度で実現できるのである。なお、この際、登録・検索対象としての市街情報を統計的に収束させることにより、市街情報の効率的な登録と、該登録内容の閲覧に伴うサービスを提供することもできる。   Such a “phoneme sequence” is used as voice information, and this is associated with position information such as the position and direction of the portable information terminal when the voice is spoken, and further, an imaging device attached to the portable information terminal, The information is provided to an information processing device that manages information such as registration in a database or search from the database by associating with neighboring image information captured by a separate imaging device that can provide data to the portable information terminal. In this way, information registration and information retrieval can be realized easily and with high accuracy. At this time, by efficiently converging the city information as the registration / search target, it is possible to provide efficient registration of the city information and a service associated with browsing of the registered contents.

ここで、上記情報処理装置は、たとえば、主記憶部、補助記憶部、演算処理部、通信部などを有する情報登録および情報検索が可能な装置により構成されるものとし、パーソナルコンピュータや大型コンピュータなどを考慮できる。また、データベースに記録されている情報の統計的分析を行うプログラムを用いて情報分析が可能な装置とするこがより好ましい。   Here, the information processing apparatus is constituted by an apparatus capable of information registration and information search including a main storage unit, an auxiliary storage unit, an arithmetic processing unit, a communication unit, and the like, such as a personal computer or a large computer. Can be considered. Further, it is more preferable to use an apparatus capable of analyzing information using a program for performing statistical analysis of information recorded in the database.

上記携帯情報端末は、たとえば、携帯電話やPDA(Personal Digital Assistant)、ノート型コンピュータ、ウェアラブルコンピュータ、腕時計型コンピュータ、車載型コンピュータなどのいわゆる可搬型の情報端末を考慮でき、移動・装着・保持等の方法や形態、形状などは限定されるものではない。   As the portable information terminal, for example, a so-called portable information terminal such as a mobile phone, a PDA (Personal Digital Assistant), a notebook computer, a wearable computer, a wristwatch computer, an in-vehicle computer, etc. can be considered. The method, form, shape, etc. are not limited.

これら情報処理装置と携帯情報端末との間は、無線LANや携帯電話などを経由してインターネット、イントラネットなどの通信網により情報の交換や相互検索を行うことができるように構成されていてもよい。   The information processing apparatus and the portable information terminal may be configured such that information can be exchanged and mutual search can be performed via a communication network such as the Internet or an intranet via a wireless LAN or a mobile phone. .

データベースは、情報処理装置に内蔵されていても、情報処理装置とは別体のものとされていても良く、別体のものである場合には情報処理装置に無線有線を問わず何らかの手段により双方向通信可能に構築する。   The database may be built in the information processing apparatus or may be separate from the information processing apparatus. If the database is separate, the information processing apparatus may be connected to the information processing apparatus by any means regardless of whether it is wired or wireless. Build in a way that allows two-way communication.

上記考察に基づき、以下に本発明の一実施の形態による情報提供技術について、図面を参照して説明する。   Based on the above consideration, an information providing technique according to an embodiment of the present invention will be described below with reference to the drawings.

<<登録・検索処理の原理説明>>
まず、図1および図2に基づき、本実施の形態による情報提供技術のうち、データをデータベースに登録するための処理とデータベースを用いたデータの検索処理の原理を簡単に説明する。
<< Principle of registration / search process >>
First, based on FIG. 1 and FIG. 2, the principle of the process for registering data in the database and the data search process using the database in the information providing technique according to the present embodiment will be briefly described.

<登録処理の原理フロー>
図1に示すように、まずステップS1において、音声波形と位置情報とを入力する。ステップS2において、音声特徴を抽出する。ステップS3において、評価関数により音素列判定を行う。次いで、ステップS4において、音素列と位置情報とを関連付けてデータベースに登録する。
<Principle flow of registration process>
As shown in FIG. 1, first, in step S1, a speech waveform and position information are input. In step S2, voice features are extracted. In step S3, phoneme string determination is performed using an evaluation function. Next, in step S4, the phoneme string and the position information are associated and registered in the database.

<検索処理の原理フロー>
図2に示すように、まずステップS11において、音声波形と位置情報とを入力する。ステップS12において、音声特徴を抽出する。ステップS13において、評価関数により音素列判定を行う。次いで、ステップS14において、音素列と位置情報とに基づいてデータベース中のデータの検索を行う。ステップS15において、検索された結果を出力する。
<Principle flow of search processing>
As shown in FIG. 2, first, in step S11, a speech waveform and position information are input. In step S12, voice features are extracted. In step S13, phoneme string determination is performed using an evaluation function. Next, in step S14, data in the database is searched based on the phoneme string and the position information. In step S15, the retrieved result is output.

<<携帯情報端末(端末装置)、情報処理装置(情報配信装置)、データベース、システムの説明>>
以下に、登録処理および検索処理に用いられる携帯情報端末、情報処理装置、およびデータベースならびにそれらで構成されるシステムのより具体的な例について、図面を参照して説明する。図3は、携帯情報端末(端末局)の構成例を示す機能ブロック図である。図4(A)は、情報処理装置(基地局)の構成例を示す機能ブロック図であり、図4(B)は、システム全体の構成例を示す概略図である。
<< Description of portable information terminal (terminal device), information processing device (information distribution device), database, system >>
Hereinafter, a more specific example of a portable information terminal, an information processing apparatus, a database, and a system including these used in registration processing and search processing will be described with reference to the drawings. FIG. 3 is a functional block diagram illustrating a configuration example of the portable information terminal (terminal station). 4A is a functional block diagram illustrating a configuration example of the information processing apparatus (base station), and FIG. 4B is a schematic diagram illustrating a configuration example of the entire system.

<携帯情報端末>
図3に示すように、ユーザ側の携帯情報端末Aは、アンテナ10と、端末A全体の制御を行う制御部11と、データ入力を行う入力部15と、データ等の表示を行う例えばLCDなどを用いた表示部17と、種々の演算を行う演算部21と、他の機器との間の通信を制御する通信制御部23と、画像データなどを取得するための撮像部25と、GPSなどを含む位置(方向を含む)確認部27と、各種情報を合成する情報合成部31と、データの記憶を行う記憶部33とを備えている。
<Mobile information terminal>
As shown in FIG. 3, a user-side portable information terminal A includes an antenna 10, a control unit 11 that controls the entire terminal A, an input unit 15 that inputs data, and an LCD that displays data and the like, for example. , A display unit 17 that performs various calculations, a communication control unit 23 that controls communication with other devices, an imaging unit 25 for acquiring image data, GPS, and the like Including a position (including direction) confirmation unit 27, an information combining unit 31 that combines various information, and a storage unit 33 that stores data.

入力部15は、文字入力部15aと音声入力部15bとを備えている。演算部21は、音声特徴抽出部21aと音素列生成部21bと画像特徴抽出部21cとを備えている。   The input unit 15 includes a character input unit 15a and a voice input unit 15b. The calculation unit 21 includes a speech feature extraction unit 21a, a phoneme sequence generation unit 21b, and an image feature extraction unit 21c.

音声特徴抽出部21aは、音声入力部15aから入力された音声の音声波形から抽出される特徴を例えば数値で表して、音声特徴を構成する。音素列生成部21bは、音声入力部15aから入力された音声に基づいて、音素の列である音素列を生成する。画像特徴抽出部21cは、撮像部25により撮像された画像に基づいて、画像の特徴(ある画像から得られる傾向など)を構成する。   The voice feature extraction unit 21a configures a voice feature by representing, for example, numerical values of features extracted from the voice waveform of the voice input from the voice input unit 15a. The phoneme string generation unit 21b generates a phoneme string that is a string of phonemes based on the voice input from the voice input unit 15a. The image feature extraction unit 21 c configures image features (such as a tendency obtained from a certain image) based on the image captured by the imaging unit 25.

<情報処理装置>
図4(A)に示すように、サービス提供者側のサーバなどの情報処理装置Bは、アンテナ40と、通信制御部41と、情報処理部47と、記憶部51とを含んで構成される。
<Information processing device>
As shown in FIG. 4A, the information processing apparatus B such as a server on the service provider side includes an antenna 40, a communication control unit 41, an information processing unit 47, and a storage unit 51. .

記憶部は、音声に関する情報を記憶するための音声情報記憶領域53と、位置・方向に関する情報を記憶するための位置情報記憶領域55と、撮影された画像に関する情報を記憶するための画像情報記憶領域57と、これらの情報と関連する付加的な情報を記憶する付加情報記憶領域61とを有している。   The storage unit includes an audio information storage area 53 for storing information relating to audio, a position information storage area 55 for storing information relating to position / direction, and an image information storage for storing information relating to the photographed image. An area 57 and an additional information storage area 61 for storing additional information related to these pieces of information are provided.

なお、図4(A)は、情報処理装置B中において、通信制御部41と情報処理装置45とが一体化されている構成を例示しているが、これらが記号L1で表されるように別体となっていてもよい。   4A illustrates a configuration in which the communication control unit 41 and the information processing device 45 are integrated in the information processing device B, but these are represented by the symbol L1. It may be a separate body.

<データベース>
これらの携帯情報端末Aおよび情報処理装置Bを介してデータの登録・蓄積および検索が行われるデータベースについては、たとえば、図3に示す携帯情報端末A内の記憶部33に作成してもよいが、多数のユーザから情報が提供されたり要求されたりするという観点から、図4(A)に示す情報処理装置B内の記憶部51に設けるようにしてもよい。
<Database>
A database in which data is registered / stored and searched via the portable information terminal A and the information processing apparatus B may be created in, for example, the storage unit 33 in the portable information terminal A shown in FIG. From the viewpoint that information is provided or requested by a large number of users, it may be provided in the storage unit 51 in the information processing apparatus B shown in FIG.

<システム>
図4(B)は、データベースDB,DB’が端末局としての携帯情報端末A,A’および基地局としての情報処理装置B,B’とは別になっているシステム構成例を示している。これにおいて、携帯情報端末(端末局)A−情報処理装置(基地局)Bの対と携帯情報端末(端末局)A’−情報処理装置(基地局)B’の対とが、それぞれネットワークCに関連付けされており、さらにデータベースDB,DB’がネットワークCを介して情報処理装置(基地局)B,B’と関連付けされている。もちろん、この他の様々な接続形態を有していてもよい。
<System>
FIG. 4B shows a system configuration example in which the databases DB and DB ′ are separate from the portable information terminals A and A ′ as terminal stations and the information processing devices B and B ′ as base stations. In this case, a pair of portable information terminal (terminal station) A-information processing apparatus (base station) B and a pair of portable information terminal (terminal station) A′-information processing apparatus (base station) B ′ are respectively connected to network C. Further, the databases DB and DB ′ are associated with the information processing apparatuses (base stations) B and B ′ via the network C. Of course, you may have other various connection forms.

<<登録・検索処理の具体的説明>>
次に、図5から図7までを参照して、本発明の一実施の形態による情報提供システムにおける処理の流れとデータベースのデータ構成例とを説明する。適宜、図3および図4をも参照する。
<< Specific description of registration / search process >>
Next, with reference to FIG. 5 to FIG. 7, a flow of processing and an example of a data structure of a database in the information providing system according to the embodiment of the present invention will be described. Reference is also made to FIGS. 3 and 4 as appropriate.

<登録処理の具体的フロー>
図5は、データベースへ情報を登録する処理の流れを示す具体的なフローチャート図である。なお、この登録処理はデータベース作成処理とも呼ぶことができる。
<Specific flow of registration process>
FIG. 5 is a specific flowchart showing the flow of processing for registering information in the database. This registration process can also be called a database creation process.

まず、ステップS21において、データベース登録処理を開始する。ステップS22において、携帯情報端末Aにおける入力部15の音声入力部15bにより、携帯情報端末Aのユーザからの音声を入力する。ステップS23において、演算部21の音声特徴抽出部21aにより、入力された音声の分析を行って音声特徴や音素特徴を抽出する。ステップS24において、演算部21の音素列生成部21bにより、抽出された音声特徴や音素特徴から音素列を生成する。   First, in step S21, database registration processing is started. In step S <b> 22, a voice from the user of the portable information terminal A is input by the voice input unit 15 b of the input unit 15 in the portable information terminal A. In step S23, the speech feature extraction unit 21a of the computing unit 21 analyzes the input speech and extracts speech features and phoneme features. In step S24, the phoneme string generation unit 21b of the calculation unit 21 generates a phoneme string from the extracted speech features and phoneme features.

さらに、ステップS25において、音声入力に応じて、位置確認部27により、GPS等を用いて携帯情報端末Aの位置を確認する(位置・方向検出ステップ)。位置情報中には、緯度・経度を用いて特定される位置、住所番地などにより特定される固有の位置、ある特定の建物などの位置基準に対してどの方向に対象物が存在するか否かなどの相対的な位置などの情報が含まれる。ステップS26において、これらの情報中から必要な位置情報を選択・特定する。   Further, in step S25, the position confirmation unit 27 confirms the position of the portable information terminal A using GPS or the like in response to the voice input (position / direction detection step). In the position information, the position specified using latitude / longitude, the specific position specified by address and address, etc., and in which direction the object exists relative to the position reference such as a specific building Information such as relative position is included. In step S26, necessary position information is selected and specified from these pieces of information.

さらに、ステップS27において、音声入力に応じて、撮像部25により撮像を行う。ステップS28において、演算部21の画像特徴抽出部21cにより、撮像された画像から画像特徴を抽出する。   Further, in step S27, the imaging unit 25 performs imaging in response to voice input. In step S28, the image feature extraction unit 21c of the calculation unit 21 extracts image features from the captured image.

そして、ステップS29において、情報合成部31により、上記音素列と選択された上記位置情報と上記画像特徴とを関連付けする。併せて、ステップS30に示すように、上記音素列と選択された上記位置情報と上記画像特徴とに関連する関連付加情報を作成する。ステップS31において、上記音素列と選択された上記位置情報と上記画像特徴と、そして関連付加情報とを関連付けした状態で、データベースに登録する。ステップS32において、データベースへの登録処理が終了する。   In step S29, the information synthesizing unit 31 associates the phoneme string with the selected position information and the image feature. In addition, as shown in step S30, related additional information related to the phoneme string, the selected position information, and the image feature is created. In step S31, the phoneme string, the selected position information, the image feature, and the related additional information are associated with each other and registered in the database. In step S32, the database registration process ends.

データベース内に登録されているデータの構成例を図6に示す。音声情報と位置情報と画像情報と付加情報とが対応付けされて配置されている。なお、図6に示す例では、説明の便宜上、音声情報をカタカナの読みで示しているが、実際には音素列としてアルファベットや発音記号等を用いて格納されている。   A configuration example of data registered in the database is shown in FIG. Audio information, position information, image information, and additional information are arranged in association with each other. In the example shown in FIG. 6, for convenience of explanation, the speech information is shown by katakana reading, but in reality, it is stored as a phoneme string using alphabets or phonetic symbols.

1行目のデータ構成は、音声情報がシブヤデパート(実際には実在する名称が用いられる)であり、位置情報が渋谷区…であり、画像情報(特徴)がそのシブヤデパートの画像である場合を示している。付加情報としては、たとえばシブヤデパート内における新装開店セールの情報が載せられている。   The data structure of the first line is when the voice information is Shibuya department store (actual name is actually used), the position information is Shibuya-ku ..., and the image information (feature) is the image of the Shibuya department store Is shown. As additional information, for example, information on a new store opening sale in Shibuya Department Store is placed.

2行面のデータ構成は、音声情報がハチであり、位置情報が渋谷区…であり、画像情報(特徴)が忠犬ハチ公の画像である場合を示している。付加情報としては、たとえば渋谷駅ハチ公口の地図情報が載せられている。   The data structure of the two rows shows a case where the audio information is a bee, the position information is Shibuya-ku, and the image information (feature) is an image of Tadayoshi Hachiko. As additional information, for example, map information of Shibuya Station Hachiko Exit is placed.

5行目のデータ構成は、音声情報がカイラクエンであり、位置情報が水戸市…であり、画像情報(特徴)が梅林の画像である場合を示している。付加情報としては、たとえば水戸偕楽園、弘道館の梅祭り開催時期の情報が載せられている。   The data structure of the fifth row shows a case where the voice information is a chiral sequence, the position information is Mito city, and the image information (feature) is an image of a plum forest. As additional information, for example, information on the time of the plum festival at Mito Kairakuen and Kodokan is posted.

以上のように、音声情報、位置情報および画像情報に基づいて、お互いに関連するデータを対応付けしたデータベースに構築することができる。
なお、3行目と4行目のデータに関しては後述する。
As described above, based on audio information, position information, and image information, it is possible to construct a database that associates data related to each other.
The data on the third and fourth lines will be described later.

以上の処理について、以下により具体的に説明する。
たとえば、渋谷において、複数のカメラ(撮像部)やGPS(位置確認部)等が付属したウェアラブルコンピュータを所持する人を散歩させたり、複数のカメラやGPU等が付属したウェアラブルコンピュータを車椅子、自転車などに装着して動かしたり、あるいは、ラジコンなどを操作したり、ロボットを巡回させつつ周囲の状況をモニターしたりする動作などにより、カメラに写る事物、視線上にある画像、風景の名称などを発音させる。
The above processing will be described more specifically below.
For example, in Shibuya, walk a person with a wearable computer with multiple cameras (imaging unit), GPS (position confirmation unit), etc., or wear a wearable computer with multiple cameras, GPUs, etc. Attaching to the camera, moving it, operating a radio control, etc., or moving around the robot to monitor the surroundings, etc., sounds things that appear on the camera, images on the line of sight, landscape names, etc. Let

たとえば、ハチ公の銅像にあわせ「ハチ」又は「ハチ公」と発音させ、デパートの前で「シブヤデパート」と発音させ、これらの音声に基づいて、時系列的な音声特徴パラメータ、音素記号、音韻記号、音素片記号などと、携帯情報端末Aの位置情報とを対応させてデータベースに登録する。この際、撮像部25により撮像した画像に基づき画像特徴抽出部21cにより得られた画像特徴なども対応させてデータベースに記憶させてもよい。   For example, “Hachi” or “Hachiko” is pronounced according to the statue of Hachiko, and “Shibuya Department Store” is pronounced in front of the department store. Based on these sounds, time-series speech feature parameters, phoneme symbols, phoneme symbols The phoneme symbol or the like and the position information of the portable information terminal A are registered in the database in association with each other. At this time, the image feature obtained by the image feature extraction unit 21c based on the image captured by the imaging unit 25 may be stored in the database in association with the image feature.

次に、これらの情報を、位置に基づいて分析し記号列を統計的に収束させる。これらの収束における演算方法は、公知の統計学的な手法によって容易に構成できる。たとえば、平均と分散に基づいてユークリッド距離を求める方法や、ベイズ式による類似度評価、kミーンズクラスタリングによるVQ(Vector Quantity:ベクトル量子化)コード化後のVQコードの距離評価等があげられる。この結果、ある位置から見える事象に関する音声から変換される記号列が統計的に評価され、ある位置において、頻繁に発話された音声から変換された記号列を位置や方向に基づいて分類し記録することが可能となり、細部にわたりデータベース化することができる。   Next, the information is analyzed based on the position, and the symbol string is statistically converged. The calculation method for the convergence can be easily configured by a known statistical method. For example, there are a method for obtaining the Euclidean distance based on the mean and variance, similarity evaluation by Bayesian expression, distance evaluation of VQ code after VQ (Vector Quantity) coding by k-means clustering, and the like. As a result, a symbol string converted from speech related to an event visible from a certain position is statistically evaluated, and a symbol string converted from frequently spoken speech is classified and recorded based on the position and direction at a certain position. And can be databased in detail.

データベースを作成する際に、画像処理技術等により画像特徴を直接関連付けて記録してもよいし、看板などの文字を認識してラベリングの情報に用い、認識した文字列を音素列に展開して、本発明の情報提供システムにより利用できるようにしてもよい。また、収録の際に音素展開しデータベースに登録するときの日本語表記が「シブヤ百貨店」に対して「shibuyahyakkaten」と[shibuyadepa−to]などのような複数通りの読み方(発音)が入力される可能性があることをも考慮し、複数の利用者の発話をデータベースに記録することもできる。また、話者の年齢や性別、出身地などの付随的な情報を加味して処理を行うこともできる。発音する音素系列において、出現頻度の高い方を統計的に割り出してデータベースに登録する処理を行うことにより、間違った呼び方や方言による変化、喋り方の癖、言語の違いなどを吸収するように統計的処理によりデータを収束させてもよい。これらの分析において、イントネーションやアクセントの情報を付加させるとより効率的な分析や検索が可能となる。さらに、携帯情報端末A、情報処理装置Bに学習機能を付加することにより、一層効率的な分析や検索が可能となる。   When creating a database, image features may be directly associated and recorded by image processing technology, etc., or characters such as signboards are recognized and used as labeling information, and the recognized character strings are expanded into phoneme strings. The information providing system of the present invention may be used. In addition, the Japanese phonetic notation for “Shibuya Department Store” is input in multiple ways of reading (pronunciation) such as “shibuyahyakkaten” and “shibuyadepa-to” when the phoneme is expanded and registered in the database at the time of recording. In consideration of the possibility, the utterances of multiple users can be recorded in the database. In addition, processing can be performed by taking into account additional information such as the speaker's age, gender, and birthplace. In the phoneme series to be pronounced, the process of statistically calculating the one with the highest appearance frequency and registering it in the database so as to absorb wrong calling and dialect changes, how to speak, language differences, etc. Data may be converged by statistical processing. In these analyses, adding intonation and accent information enables more efficient analysis and search. Further, by adding a learning function to the portable information terminal A and the information processing apparatus B, more efficient analysis and search can be performed.

上述のような処理によりデータベースを作成することは、地図情報と周囲の画像特徴とに対して音声ラベルを与えながら地域情報を収録することにも対応する。収録された情報を位置に基づき前述の統計的手法により分析することで、ある地域を歩いた時に視界内に入る建物等の名称や関連用語のデータベースを構築することができる。この際、音素列だけではなく、単語文字列、音声波形特徴または音声VQコードなどに基づいて種々の情報との関連付けを行うことも可能である。あるいは、上記各要素を適宜組み合わせることにより、関連情報との対応の精度を向上させてラベリングを行うことも可能である。   Creating a database by the processing as described above also corresponds to recording regional information while giving voice labels to map information and surrounding image features. By analyzing the recorded information using the above-described statistical method based on the position, it is possible to construct a database of names and related terms of buildings that enter the field of view when walking in a certain area. At this time, not only phoneme strings but also association with various information can be performed based on word character strings, speech waveform features, speech VQ codes, or the like. Alternatively, labeling can be performed by appropriately combining the above-described elements to improve the accuracy of correspondence with related information.

また、画像を見ながらキーボードや入力キーなどにより単語を入力して位置に関する内容をラベリングしたい場合には、その単語を、音素や音素片等の記号により形成される時系列データに展開し、これを検索ラベルとして用いてもよい。   In addition, when you want to label the contents of a position by inputting a word with a keyboard or input key while looking at the image, expand the word into time-series data formed by symbols such as phonemes and phonemes. May be used as a search label.

このように構成されたデータベースによれば、音声認識により単語や漢字を含むテキストラベルに変換する処理を行わなくてもよい。すなわち、音素列が連続して出力されるため、音素列同士をDPマッチングやHMM(Hidden Markov Model:隠れマルコフモデル)などの手法により評価し、検索することが可能となり、正確な単語を同定せずに現在位置における適切な情報の検索が可能となる。   According to the database configured in this way, it is not necessary to perform a process of converting into a text label including words and kanji by speech recognition. In other words, since phoneme strings are output continuously, it is possible to evaluate and search phoneme strings using methods such as DP matching and HMM (Hidden Markov Model). Therefore, it is possible to search for appropriate information at the current position.

もちろん、音素同士の類似性を距離評価のためのテーブルとしてまとめておき、DP(Dynamic Programming:動的計画法)マッチングにおける一致度評価の効率を向上させる方法も考えられる。また、1つの音素列に対し複数の意味タグや画像特徴を付加することにより、1つの呼称に対して幾つかの意味や形状情報を与えたり、1つの意味タグや形状情報に対して複数の音素列を関連させて構成させたりすることにより、同じ音素列タグに関連している事象を、同音異義語や同一形状に対する別の呼称として収束させたり、逆に同じ形状の呼称や意味タグに関連する音素列を異音同義語としたり、意味タグ自体を音素列で構成するといった方法を用いて意味検索を実現することも可能である。   Of course, it is also conceivable to collect similarities between phonemes as a table for distance evaluation and improve the efficiency of matching evaluation in DP (Dynamic Programming) matching. Also, by adding a plurality of meaning tags and image features to one phoneme string, several meanings and shape information are given to one name, and a plurality of meaning tags and shape information are assigned to a plurality of meaning tags and shape information. By making phoneme strings related to each other, events related to the same phoneme string tag can be converged as different names for homonyms and the same shape, or conversely to names and meaning tags of the same shape. It is also possible to realize a semantic search by using a method in which related phoneme sequences are synonymous with allophones or meaning tags themselves are composed of phoneme sequences.

また、類似性の高い画像特徴に対し、異なる音素列を有するものは異音同義語として取り扱う場合に、言語の違いによる音素の出現率や遷移確率などを考慮して、異言語間での意味を共有できるように構成してもよい。さらに、異なる画像特徴に対する類似した音素ラベル系列から、視線方向に基づく形状の違いとして評価する方法も可能である。   In addition, when image features with high similarity are handled with different phoneme strings as synonyms, the meaning between different languages is considered in consideration of the appearance rate and transition probability of phonemes due to language differences. May be configured to be shared. Furthermore, a method of evaluating as a difference in shape based on the line-of-sight direction from similar phoneme label sequences for different image features is also possible.

上記データベースを用いる際に、店舗などの商業を目的とした検索であれば、店舗の種類や店舗の開店時間、店舗のジャンル、大型店舗内の出店一覧といった、より細かい項目によって分類しておくことで、より効率的な検索が可能となる。また、インターネット上の情報を併せて用いたり、インターネット経由で情報を共有したりしてもよい。また、携帯電話やウェアラブルコンピュータ、カーナビゲーションシステムなどの携行・装着型の端末だけではなく、ペットロボットやエージェントロボットなどの情報処理機能を有する装置、ロボットを用いることも可能である。   When using the above database, if the search is for commercial purposes such as stores, classify by more detailed items such as store type, store opening time, store genre, and list of store openings in large stores. Thus, a more efficient search becomes possible. Further, information on the Internet may be used together, or information may be shared via the Internet. In addition to portable / wearable terminals such as mobile phones, wearable computers, and car navigation systems, devices and robots having information processing functions such as pet robots and agent robots can be used.

<検索処理の具体的フロー>
次に、図7を参照して、音声に基づいて情報をキーにしてデータベースから関連する情報を検索する処理を説明する。
<Specific flow of search processing>
Next, with reference to FIG. 7, a process for searching related information from a database using information as a key based on voice will be described.

まず、ステップS51において、検索処理を開始する。ステップS52において、携帯情報端末Aにおける入力部15の音声入力部15bにより、情報提供要求者である携帯情報端末Aのユーザが要求する情報に関連する音声を入力する。ステップS53において、演算部21の音声特徴抽出部21aにより、入力された音声の音声分析を行って音声特徴や音素特徴を抽出する。ステップS54において、演算部21の音素列生成部21bにより、抽出された音声特徴や音素特徴に基づいて音素列を生成する。   First, in step S51, search processing is started. In step S52, the voice input unit 15b of the input unit 15 in the portable information terminal A inputs voice related to information requested by the user of the portable information terminal A who is the information provision requester. In step S53, the speech feature extraction unit 21a of the calculation unit 21 performs speech analysis of the input speech to extract speech features and phoneme features. In step S54, the phoneme string generation unit 21b of the calculation unit 21 generates a phoneme string based on the extracted speech features and phoneme features.

音声に関する上記処理とともに、ステップS55において、音声入力に応じて、位置確認部27により、携帯情報端末Aの位置を検出する。ステップS26において、必要な位置情報を選択・特定する。加えて、ステップS57において、音声入力に応じて、撮像部25により周辺環境に関する撮像を行い、ステップS28において、演算部21の画像特徴抽出部21cにより、撮像された画像から画像特徴を抽出する。   Along with the above processing relating to voice, in step S55, the position confirmation unit 27 detects the position of the portable information terminal A in response to voice input. In step S26, necessary position information is selected and specified. In addition, in step S57, in accordance with the voice input, the imaging unit 25 performs imaging related to the surrounding environment, and in step S28, the image feature extraction unit 21c of the calculation unit 21 extracts image features from the captured image.

上記各ステップにおいて得られた各情報であって、同じ音声入力に応じて得られた情報に基づき、ステップS59において、情報処理装置Bにより、データベースから関連する情報を検索し、併せて付加情報をも付加して、携帯情報端末Aに送られる。   Based on the information obtained in each of the above steps and obtained in response to the same voice input, in step S59, the information processing apparatus B searches the database for related information, and also adds additional information. Is also sent to the portable information terminal A.

これらの関連する情報が、たとえば携帯情報端末Aの表示部17に表示される。ユーザは表示部17に表示された情報を参考にして行動することができる。   Such related information is displayed on the display unit 17 of the portable information terminal A, for example. The user can act with reference to the information displayed on the display unit 17.

上記検索結果を利用者に提示するサービスは、たとえば、グラフィカルな地図や経路動画像を表示し、指定の店舗までの経路を提示したり、音声を用いて要所要所において方向を指示したりしてもよい。また、店舗に勤務する者やその店舗の利用者が、宣伝や評価などの情報を付加すること、利用時間帯に応じて昼は食事、夜は居酒屋の情報に切り替えるなどの工夫をすることで、有効かつ効率的な情報支援を行うことができる。   The service for presenting the above search results to the user displays, for example, a graphical map or a route moving image, presents a route to a specified store, and instructs a direction at a necessary place using voice. May be. In addition, people working at the store and users of the store can add information such as advertisements and evaluations, and devise measures such as switching to meal information at noon and pub information at night according to the time of use. Can provide effective and efficient information support.

さらに、上記サービスに関する統合的な応用例として、GPSなどの様々な技術で渋谷駅の「ハチ公像」の前であることを位置情報により特定した後、「ハチ」「ビデオ」などのキーワードを用いた多重条件検索を行うと「忠犬ハチ公」の映画を見ることができるようにすることも可能である。また、映画の中の会話で「ハチ」と言う単語が出てきている場面や「ハチ公」の出ている画面のみを検索することも可能である。   Furthermore, as an integrated application example related to the above services, keywords such as “bee” and “video” are used after specifying the location information in front of “Hachiko” at Shibuya Station using various technologies such as GPS. It is also possible to make it possible to watch a movie of “Tadayoshi Hachiko” by performing a multiple condition search. It is also possible to search only scenes where the word “Hachi” appears in a conversation in a movie or a screen where “Hachiko” appears.

なお、再び図6を参照して説明すると、「ハチ」という音声情報が入力された場合であっても、確認された位置が、例えば水戸市内である場合や、江戸下町界隈に特定された場合における検索結果は、異なるものとなる場合がある。   Referring to FIG. 6 again, even when the voice information “bee” is input, the confirmed position is specified in, for example, Mito city or the Edo Shitamachi neighborhood. In some cases, the search results may be different.

たとえば、位置情報が水戸市と特定された場合には、「ハチ」に関連した登場人物を有し、且つ「水戸市」に関連した人気テレビ番組の情報が優先的に付加されるようにしてもよい。また、位置情報が東京下町である場合には、「ハチ」に関連した「東京下町」の貧乏長屋の人物についての話しである古典落語に関連する情報が提示される。   For example, if the location information is identified as Mito City, the information related to the popular TV program related to “Mito City” is added preferentially to the characters related to “Hachi”. Also good. If the location information is Tokyo downtown, information related to classical rakugo, which is a story about a poor tenement person in “Tokyo downtown” related to “bee”, is presented.

このように、同音である場合には紛らわしいため、位置情報をも加味することにより、認識の精度を向上させることができる。   Thus, since it is confusing in the case of the same sound, the accuracy of recognition can be improved by adding the position information.

上述の水戸偕楽園の例に示すように、各地の名所案内とその名所に関連する情報の提示も可能であり、旅行ガイドとして用いることもできる。また、障害者の誘導などに応用することも可能であろう。   As shown in the example of the above-mentioned Mito Kairakuen, it is also possible to present information on the places of interest and information related to the places, and it can be used as a travel guide. It can also be applied to the guidance of persons with disabilities.

この際、従来の音声認識技術を用いて、複数の単語の関係に対し文法的規制を入れたり、構文解析を施したりすることにより、より効率的な検索条件の設定を行ってもよい。   At this time, more efficient search conditions may be set by putting grammatical restrictions on the relationship between a plurality of words or by performing syntax analysis using a conventional speech recognition technique.

なお、位置や方向を検出する方法としては、GPS、速度センサー、地磁気センサーなどを組み合わせ、カーナビゲーションシステムのように位置を検出したり、それぞれの場所に位置を示すIDを発信するタグなどを設け、受信したIDに基づいて位置を検出してもよい。   In addition, as a method for detecting the position and direction, a GPS, a speed sensor, a geomagnetic sensor, etc. are combined to detect a position like a car navigation system or provide a tag for transmitting an ID indicating the position to each place. The position may be detected based on the received ID.

もちろん、これらのラベリングを施す情報は店舗や看板、時刻表、案内図、記念碑などの地域に根ざした市街情報に限らず、生えている木や草花、動物や昆虫などの郊外の自然情報などであってもよい。たとえば、音声情報が「オゼ」であり、位置情報が尾瀬の方向に向かっている場合には、尾瀬の水芭蕉の花の見所などの関連情報が提供されるようにしてもよい。そして、これらの検索に自然情報を用いる場合、次のような手法が考えられる。   Of course, the information to be labeled is not limited to the city information rooted in the area such as stores, signboards, timetables, guide maps, and monuments, but also suburban natural information such as growing trees, flowers, animals and insects. It may be. For example, when the audio information is “Oze” and the position information is in the direction of Oze, related information such as highlights of Oze Minamata flowers may be provided. And when natural information is used for these searches, the following methods can be considered.

まず、入力された周囲の風景を季節、天候、時間帯といった自然状況に応じて変化する形状や輪郭の周波数分布、色彩や輝度、彩度の変化をはじめとした画像情報や騒音や環境音などの音響情報、風力、気温、雨量、地磁気の変化などの自然における具体的な状況の変化に基づいて条件を構成しデータ分類する。次に、画像や地域に関わる特徴情報を用いて統計的な特徴の偏りを分析する。   First, the input surrounding landscape changes its shape and contour frequency distribution according to the natural conditions such as season, weather, and time zone, image information including changes in color, brightness and saturation, noise and environmental sound, etc. The data are classified based on specific conditions in nature such as acoustic information, wind power, temperature, rainfall, and geomagnetic changes. Next, statistical feature bias is analyzed using feature information related to images and regions.

そして、この評価結果を登録された情報の自然情報に関するラベリングに用いたり、検索における天候などの状況変化を踏まえた利用者への送信内容の修正や補正に用いたりするといった方法や、利用者自身が検索キーに用いたり、システムが自動的に挿入する検索キーとして利用することも可能である。もちろん、これらの情報を表現する音声を元にIDや音素列による意味タグを構成してもよいし、その音声特徴を調査、研究するための音素データベースを構築に用いてもよい。   The evaluation results can be used for labeling the natural information of the registered information, or used for correcting or correcting the content to be transmitted to the user based on changes in conditions such as weather in the search. Can be used as a search key, or as a search key automatically inserted by the system. Of course, semantic tags based on IDs and phoneme strings may be constructed based on the speech expressing such information, or a phoneme database for investigating and studying the speech features may be used for construction.

このようなデータベース構成するために、そのラベル入力者はインデクサーもしくはラベラーという職業として確立されるようにしてもよい。また、この作業を職業として行う上で、嘘や間違い、偽りの情報を入力するラベラーが賃金支払いに関し課題となると予想できる。しかし、他のラベラーとの、たとえば、同一地域における特定の名称や天候といった客観的情報の類似度、データ利用者のラベリング情報に対する評価といった情報、データベース構築側からの信頼できるスタッフの派遣、既に登録されている地図方法に基づいた客観的な情報の登録状況といった手法を用いて、個々のラベラーにおける発言登録内容の信憑性を統計的に評価し課題の解決を図ることが可能である。   In order to construct such a database, the label input person may be established as an occupation called an indexer or a labeler. Moreover, it can be expected that a labeler who inputs lies, mistakes, and false information will be an issue regarding wage payment when performing this work as a profession. However, with other labelers, for example, information such as the similarity of objective information such as specific names and weather in the same region, evaluation of data users' labeling information, reliable staff dispatch from the database construction side, already registered It is possible to statistically evaluate the credibility of the content of the utterance registration in each labeler and solve the problem using a method such as objective information registration status based on the map method.

また、これらの情報入力作業は、移動することができ、周囲の物体の名称や状況を発話できれば、従来の地図などの書類や現地の看板を見ながらキーボードにより入力するよりも効率的な地域関連情報の入力が可能となる。このため、年齢や教育、経験といった能力差の影響を受けない労働環境の提供も可能となり、長期失業者や定年退職者といった労働力によるデータベース構築が実現可能である。そして、これらの賃金体系は先の信憑性や他のラベラーが気付かない情報を入力してくれるラベラー、利用者の多い情報を入力するラベラーといった情報の利用者評価に基づいて勤務評価をするといったオークション的方法を取ることもできる。また、ラベラーはデータベース側に登録されていなかったり、データベース内での類似度や尤度の評価において的確な対象特徴情報群が特定できない場合に、データベース側からの依頼に応じて、新しくラベリングを施すための情報を提供してもよい。もちろん、画像、音声または位置などの情報を得るために、光学や画像、音像、形状、色彩、音響などの各種特徴を相互に組み合わせたり、統計的関連性による重み付けを行い検索することも可能である。   In addition, these information input tasks can be moved, and if you can speak the names and situations of surrounding objects, it is more efficient than the conventional keyboard-related input such as maps and other local signs. Information can be input. For this reason, it is possible to provide a working environment that is not affected by differences in abilities such as age, education, and experience, and it is possible to construct a database based on the labor force such as long-term unemployed persons or retired workers. And these wage systems are auctions that evaluate work based on user evaluation of information such as a labeler that inputs information that the previous credibility and other labelers do not notice, a labeler that inputs information with many users, etc. You can also take the right way. In addition, if the labeler is not registered on the database side, or if an accurate target feature information group cannot be identified in the evaluation of similarity or likelihood in the database, a new labeling is performed in response to a request from the database side. Information may be provided. Of course, in order to obtain information such as image, sound, or position, it is also possible to search by combining various features such as optics, image, sound image, shape, color, sound, etc. or weighting by statistical relevance. is there.

もちろん、本発明は以上の実施形態に限定されるものではなく、細部については様々な態様が可能である。   Of course, the present invention is not limited to the above embodiments, and various aspects are possible for details.

A,A’ 携帯情報端末(端末局)
10 アンテナ
11 制御部
15 入力部
15a 文字入力部
15b 音声入力部
17 表示部
21 演算部
21a 音声特徴抽出部
21b 音声列生成部
21c 画像特徴抽出部
23 通信制御部
25 撮像部
27 位置確認部
31 情報合成部
33 記憶部
B,B’ 情報処理装置(基地局)
40 アンテナ
41 通信制御部
45 情報処理装置
47 情報処理部
51 記憶部
53 音声情報記憶領域
55 位置情報記憶領域
57 画像情報記憶領域
61 付加情報記憶領域
C ネットワーク
DB,DB’ データベース
A, A 'Personal digital assistant (terminal station)
DESCRIPTION OF SYMBOLS 10 Antenna 11 Control part 15 Input part 15a Character input part 15b Voice input part 17 Display part 21 Computation part 21a Voice feature extraction part 21b Speech sequence generation part 21c Image feature extraction part 23 Communication control part 25 Imaging part 27 Position confirmation part 31 Information Synthesizer 33 Memory B, B 'Information processing device (base station)
DESCRIPTION OF SYMBOLS 40 Antenna 41 Communication control part 45 Information processing apparatus 47 Information processing part 51 Storage part 53 Voice information storage area 55 Position information storage area 57 Image information storage area 61 Additional information storage area C Network DB, DB 'database

Claims (12)

位置情報を取得する位置情報取得部と、
音声を入力する音声入力部と、
前記音声入力部から得られた音声から、音韻、音素、音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する記号抽出部と、
前記位置情報取得部で取得した前記位置情報と前記記号抽出部で抽出ないし変換された前記記号情報とを送信する通信制御部を備えた端末装置であって、
前記通信制御部によって送信された前記記号情報によって構成された記号列情報と前記位置情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索することを特徴とする端末装置。
A location information acquisition unit for acquiring location information;
A voice input unit for inputting voice;
A symbol extraction unit that extracts or converts any symbol information of phonemes, phonemes, phonemes, continuous phonemes, and VQ codes from the speech obtained from the speech input unit;
A terminal device comprising a communication control unit for transmitting the position information acquired by the position information acquisition unit and the symbol information extracted or converted by the symbol extraction unit;
Using the symbol string information configured by the symbol information transmitted by the communication control unit and the position information as search keys, various information associated with the search key is searched from the database by statistical processing based on the position information. A terminal device.
位置情報を取得する位置情報取得部と、
音声を入力する音声入力部と、
前記音声入力部から得られた音声から、音韻、音素、音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する記号抽出部と、
画像を入力する画像入力部と、
前記画像入力部から得られた画像から、画像特徴情報を抽出する画像特徴抽出部と、
前記位置情報取得部で取得した前記位置情報と前記記号抽出部で抽出ないし変換された前記記号情報と前記画像特徴抽出部で抽出した前記画像特徴情報とを送信する通信制御部を備えた端末装置であって、
前記より送信された前記記号情報によって構成された記号列情報と前記位置情報と前記画像特徴情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索することを特徴とする端末装置。
A location information acquisition unit for acquiring location information;
A voice input unit for inputting voice;
A symbol extraction unit that extracts or converts any symbol information of phonemes, phonemes, phonemes, continuous phonemes, and VQ codes from the speech obtained from the speech input unit;
An image input unit for inputting an image;
An image feature extraction unit for extracting image feature information from the image obtained from the image input unit;
A terminal device including a communication control unit that transmits the position information acquired by the position information acquisition unit, the symbol information extracted or converted by the symbol extraction unit, and the image feature information extracted by the image feature extraction unit. Because
Various information associated with the search key by a statistical process based on the position information is stored in the database using the symbol string information constituted by the symbol information transmitted from the position, the position information, and the image feature information as a search key. The terminal device characterized by searching from.
位置情報を取得する位置情報取得部と、音声を入力する音声入力部と、前記音声入力部から得られた音声から、音韻、音素、音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する記号抽出部と、前記位置情報取得部で取得した前記位置情報と、前記記号抽出部で抽出ないし変換された前記記号情報とを送信する通信制御部とを備えた端末装置により送信された前記記号情報と前記位置情報とを受信する受信部と、
前記記号情報によって構成された記号列情報と前記位置情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索し前記端末装置に検索結果を送信する送信部を備えることを特徴とする情報配信装置。
A position information acquisition unit that acquires position information, a voice input unit that inputs voice, and any one of a phoneme, a phoneme, a phoneme piece, a continuous phoneme piece, and a VQ code from the voice obtained from the voice input unit A terminal comprising: a symbol extraction unit that extracts or converts symbol information; and a communication control unit that transmits the position information acquired by the position information acquisition unit and the symbol information extracted or converted by the symbol extraction unit. A receiving unit for receiving the symbol information and the position information transmitted by a device;
Using the symbol string information configured by the symbol information and the position information as search keys, various information associated with the search key is searched from the database by statistical processing based on the position information, and the search result is sent to the terminal device. An information distribution apparatus comprising a transmission unit for transmission.
位置情報を取得する位置情報取得部と、音声を入力する音声入力部と、前記音声入力部から得られた音声から、音韻、音素、音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する記号抽出部と、画像を入力する画像入力部と、前記画像入力部から得られた画像から、画像特徴情報を抽出する画像特徴抽出部と、前記位置情報取得部で取得した前記位置情報と前記記号抽出部で抽出ないし変換された前記記号情報と前記画像特徴抽出部で抽出した前記画像特徴情報とを送信する通信制御部とを備えた端末装置により送信された前記記号情報と前記位置情報と前記画像特徴情報とを受信する受信部と、
前記記号情報によって構成された記号列情報と前記位置情報と前記画像特徴情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索し前記端末装置に検索結果を送信する送信部を備えることを特徴とする情報配信装置。
A position information acquisition unit that acquires position information, a voice input unit that inputs voice, and any one of a phoneme, a phoneme, a phoneme piece, a continuous phoneme piece, and a VQ code from the voice obtained from the voice input unit A symbol extraction unit that extracts or converts symbol information; an image input unit that inputs an image; an image feature extraction unit that extracts image feature information from an image obtained from the image input unit; and the position information acquisition unit. The transmitted position information, the symbol information extracted or converted by the symbol extraction unit, and the communication control unit that transmits the image feature information extracted by the image feature extraction unit. A receiving unit that receives the symbol information, the position information, and the image feature information;
Using the symbol string information constituted by the symbol information, the position information, and the image feature information as a search key, search the database for various information associated with the search key by statistical processing based on the position information, and the terminal An information distribution apparatus comprising: a transmission unit that transmits a search result to the apparatus.
端末装置と情報配信装置を接続可能に構成された情報配信システムであって、
前記端末装置が、
位置情報を取得する位置情報取得部と、
音声を入力する音声入力部と、
前記音声入力部から得られた音声から、音韻、音素、音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する記号抽出部と、
前記位置情報取得部で取得した前記位置情報と前記記号抽出部で抽出ないし変換された前記記号情報とを送信する通信制御部を備え、
前記情報配信装置が、
前記端末装置により送信された前記記号情報と前記位置情報とを受信する受信部と、
前記記号情報によって構成された記号列情報と前記位置情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索し前記端末装置に検索結果を送信する送信部を備えることを特徴とする情報配信システム。
An information distribution system configured to connect a terminal device and an information distribution device,
The terminal device is
A location information acquisition unit for acquiring location information;
A voice input unit for inputting voice;
A symbol extraction unit that extracts or converts any symbol information of phonemes, phonemes, phonemes, continuous phonemes, and VQ codes from the speech obtained from the speech input unit;
A communication control unit for transmitting the position information acquired by the position information acquisition unit and the symbol information extracted or converted by the symbol extraction unit;
The information distribution device is
A receiver for receiving the symbol information and the position information transmitted by the terminal device;
Using the symbol string information constituted by the symbol information and the position information as a search key, various information associated with the search key is searched from a database by statistical processing based on the position information, and the search result is sent to the terminal device. An information distribution system comprising a transmission unit for transmission.
端末装置と情報配信装置を接続可能に構成された情報配信システムであって、
前記端末装置が、
位置情報を取得する位置情報取得部と、
音声を入力する音声入力部と、
前記音声入力部から得られた音声から、音韻、音素、音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する記号抽出部と、
画像を入力する画像入力部と、
前記画像入力部から得られた画像から、画像特徴情報を抽出する画像特徴抽出部と、
前記位置情報取得部で取得した前記位置情報と前記記号抽出部で抽出ないし変換された前記記号情報と、前記画像特徴抽出部で抽出した前記画像特徴情報とを送信し、また前記情報配信装置からの情報を受信する通信制御部とを備え、
前記情報配信装置が、
前記端末装置により送信された前記記号情報と前記位置情報と前記画像特徴情報とを受信する受信部と、
前記記号情報によって構成された記号列情報と前記位置情報と前記画像特徴情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索し前記端末装置に検索結果を送信する送信部を備えることを特徴とする情報配信システム。
An information distribution system configured to connect a terminal device and an information distribution device,
The terminal device is
A location information acquisition unit for acquiring location information;
A voice input unit for inputting voice;
A symbol extraction unit that extracts or converts any symbol information of phonemes, phonemes, phonemes, continuous phonemes, and VQ codes from the speech obtained from the speech input unit;
An image input unit for inputting an image;
An image feature extraction unit for extracting image feature information from the image obtained from the image input unit;
The position information acquired by the position information acquisition unit, the symbol information extracted or converted by the symbol extraction unit, and the image feature information extracted by the image feature extraction unit are transmitted, and from the information distribution device A communication control unit for receiving the information of
The information distribution device is
A receiving unit that receives the symbol information, the position information, and the image feature information transmitted by the terminal device;
Using the symbol string information constituted by the symbol information, the position information, and the image feature information as a search key, and searching various information associated with the search key by a statistical process based on the position information from the database, the terminal An information distribution system comprising a transmission unit for transmitting a search result to an apparatus.
コンピュータに、
取得した位置情報を受け付ける手順1、
音声の入力を受け付ける手順2、
手順2で受け付けた音声から、音韻、音素、音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する手順3、
手順1で受け付けた前記位置情報と、手順3で抽出ないし変換された前記記号情報とを送信する手順4、
手順4で送信された前記記号情報によって構成された記号列情報と前記位置情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索する手順5
を実行させるためのプログラム。
On the computer,
Procedure 1 for receiving the acquired position information,
Procedure 2 to accept voice input,
Procedure 3 for extracting or converting any symbol information of phonemes, phonemes, phonemes, continuous phonemes and VQ codes from the speech received in Procedure 2;
Procedure 4 for transmitting the position information received in Procedure 1 and the symbol information extracted or converted in Procedure 3;
A procedure for retrieving from the database various information associated with the search key by statistical processing based on the position information, using the symbol string information configured by the symbol information transmitted in step 4 and the position information as search keys. 5
A program for running
コンピュータに、
取得した位置情報を受け付ける手順1、
音声の入力を受け付ける手順2、
画像の入力を受け付ける手順3、
手順2で受け付けた音声から、音韻、音素音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する手順4、
手順3で受け付けた画像から画像特徴情報を抽出する手順5、
手順1で受け付けた前記位置情報と手順4で抽出ないし変換された前記記号情報と手順5で抽出した前記画像特徴情報とを送信する手順6、
手順6で送信された前記記号情報によって構成された記号列情報と前記位置情報と前記画像特徴情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索する手順7
を実行させるためのプログラム。
On the computer,
Procedure 1 for receiving the acquired position information,
Procedure 2 to accept voice input,
Procedure 3 to accept image input,
Procedure 4 for extracting or converting any symbol information of phonemes, phoneme phonemes, continuous phonemes and VQ codes from the speech received in Procedure 2;
Procedure 5 for extracting image feature information from the image received in Procedure 3;
Procedure 6 for transmitting the position information received in Procedure 1, the symbol information extracted or converted in Procedure 4, and the image feature information extracted in Procedure 5.
Using the symbol string information, the position information, and the image feature information configured by the symbol information transmitted in step 6 as search keys, various information associated with the search keys by statistical processing based on the position information Search from database 7
A program for running
コンピュータに、
位置情報を取得する位置情報取得部と、音声を入力する音声入力部と、前記音声入力部から得られた音声から、音韻、音素、音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する記号抽出部と、前記位置情報取得部で取得した前記位置情報と、前記記号抽出部で抽出ないし変換された前記記号情報とを送信する通信制御部とを備えた端末装置により送信された前記記号情報と前記位置情報とを受信する手順1、
前記記号情報によって構成された記号列情報と前記位置情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索し前記端末装置に検索結果を送信する手順2
を実行させるためのプログラム。
On the computer,
A position information acquisition unit that acquires position information, a voice input unit that inputs voice, and any one of a phoneme, a phoneme, a phoneme piece, a continuous phoneme piece, and a VQ code from the voice obtained from the voice input unit A terminal comprising: a symbol extraction unit that extracts or converts symbol information; and a communication control unit that transmits the position information acquired by the position information acquisition unit and the symbol information extracted or converted by the symbol extraction unit. Procedure 1 for receiving the symbol information and the position information transmitted by a device,
Using the symbol string information configured by the symbol information and the position information as search keys, various information associated with the search key is searched from the database by statistical processing based on the position information, and the search result is sent to the terminal device. Sending procedure 2
A program for running
コンピュータに、
位置情報を取得する位置情報取得部と、音声を入力する音声入力部と、前記音声入力部から得られた音声から、音韻、音素、音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する記号抽出部と、画像を入力する画像入力部と、前記画像入力部から得られた画像から、画像特徴情報を抽出する画像特徴抽出部と、前記位置情報取得部で取得した前記位置情報と前記記号抽出部で抽出ないし変換された前記記号情報と前記画像特徴抽出部で抽出した前記画像特徴情報とを送信する通信制御部とを備えた端末装置により送信された前記記号情報と前記位置情報と前記画像特徴情報とを受信する手順1、
前記記号情報によって構成された記号列情報と前記位置情報と前記画像特徴情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索し前記端末装置に検索結果を送信する手順2
を実行させるためのプログラム。
On the computer,
A position information acquisition unit that acquires position information, a voice input unit that inputs voice, and any one of a phoneme, a phoneme, a phoneme piece, a continuous phoneme piece, and a VQ code from the voice obtained from the voice input unit A symbol extraction unit that extracts or converts symbol information; an image input unit that inputs an image; an image feature extraction unit that extracts image feature information from an image obtained from the image input unit; and the position information acquisition unit. The position information, the symbol information extracted or converted by the symbol extraction unit, and the communication control unit that transmits the image feature information extracted by the image feature extraction unit are transmitted by the terminal device. Procedure 1 for receiving symbol information, the position information, and the image feature information;
Using the symbol string information constituted by the symbol information, the position information, and the image feature information as a search key, search the database for various information associated with the search key by statistical processing based on the position information, and the terminal Procedure 2 to send the search result to the device
A program for running
端末装置と情報配信装置を接続可能に構成された情報配信システムのためのプログラムであって、
コンピュータに、
取得した位置情報を受け付ける手順1、
音声の入力を受け付ける手順2、
手順2で受け付けた音声から、音韻、音素、音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する手順3、
手順1で受け付けた前記位置情報と、手順3で抽出ないし変換された前記記号情報とを前記情報配信装置に送信する手順4
を実行させるとともに、
前記端末装置により送信された前記記号情報と前記位置情報とを受信する手順5、
前記記号情報によって構成された記号列情報と前記位置情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索し前記端末装置に検索結果を送信する手順6
を実行させるためのプログラム。
A program for an information distribution system configured to connect a terminal device and an information distribution device,
On the computer,
Procedure 1 for receiving the acquired position information,
Procedure 2 to accept voice input,
Procedure 3 for extracting or converting any symbol information of phonemes, phonemes, phonemes, continuous phonemes and VQ codes from the speech received in Procedure 2;
Procedure 4 for transmitting the position information received in Procedure 1 and the symbol information extracted or converted in Procedure 3 to the information distribution device
As well as
Procedure 5 for receiving the symbol information and the position information transmitted by the terminal device,
Using the symbol string information configured by the symbol information and the position information as search keys, various information associated with the search key is searched from the database by statistical processing based on the position information, and the search result is sent to the terminal device. Sending procedure 6
A program for running
端末装置と情報配信装置を接続可能に構成された情報配信システムのためのプログラムであって、
コンピュータに、
取得した位置情報を受け付ける手順1、
音声の入力を受け付ける手順2、
画像の入力を受け付ける手順3、
手順2で受け付けた音声から音韻、音素音素片、連続音素片およびVQコードのうちのいずれかの記号情報を抽出ないし変換する手順4、
手順3で受け付けた画像から画像特徴情報を抽出する手順5、
手順1で受け付けた前記位置情報と手順4で抽出ないし変換された前記記号情報と手順5で抽出した前記画像特徴情報とを送信する手順6、
前記位端末装置より送信された前記位置情報と前記記号情報と前記画像情報を受信する手順7、
前記記号情報によって構成された記号列情報と前記位置情報と前記画像特徴情報とを検索キーとして用い、前記位置情報に基づく統計的処理によって検索キーに関連付けられた各種情報をデータベースから検索し前記端末装置に検索結果を送信する手順8
を実行させるためのプログラム。
A program for an information distribution system configured to connect a terminal device and an information distribution device,
On the computer,
Procedure 1 for receiving the acquired position information,
Procedure 2 to accept voice input,
Procedure 3 to accept image input,
Procedure 4 for extracting or converting any symbol information of phoneme, phoneme phoneme piece, continuous phoneme piece and VQ code from the speech received in step 2.
Procedure 5 for extracting image feature information from the image received in Procedure 3;
Procedure 6 for transmitting the position information received in Procedure 1, the symbol information extracted or converted in Procedure 4, and the image feature information extracted in Procedure 5.
A procedure 7 for receiving the position information, the symbol information, and the image information transmitted from the terminal device;
Using the symbol string information constituted by the symbol information, the position information, and the image feature information as a search key, search the database for various information associated with the search key by statistical processing based on the position information, and the terminal Procedure 8 for transmitting the search result to the apparatus
A program for running
JP2009074660A 2002-05-30 2009-03-25 Terminal device, information distribution device, information distribution system, and program Expired - Fee Related JP4978810B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009074660A JP4978810B2 (en) 2002-05-30 2009-03-25 Terminal device, information distribution device, information distribution system, and program

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2002156928 2002-05-30
JP2002156928 2002-05-30
JP2009074660A JP4978810B2 (en) 2002-05-30 2009-03-25 Terminal device, information distribution device, information distribution system, and program

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2003153421A Division JP2004054915A (en) 2002-05-30 2003-05-29 Information providing system

Publications (2)

Publication Number Publication Date
JP2009134774A true JP2009134774A (en) 2009-06-18
JP4978810B2 JP4978810B2 (en) 2012-07-18

Family

ID=40866530

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009074660A Expired - Fee Related JP4978810B2 (en) 2002-05-30 2009-03-25 Terminal device, information distribution device, information distribution system, and program

Country Status (1)

Country Link
JP (1) JP4978810B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013521567A (en) * 2010-03-05 2013-06-10 インターナショナル・ビジネス・マシーンズ・コーポレーション System including client computing device, method of tagging media objects, and method of searching a digital database including audio tagged media objects

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09231244A (en) * 1995-12-22 1997-09-05 Sony Corp Information retrieval device and method therefor
JPH10283362A (en) * 1997-04-02 1998-10-23 Casio Comput Co Ltd Portable information terminal and storage medium
JP2001222494A (en) * 1999-12-01 2001-08-17 Asahi Kasei Corp Device, system and method for retrieving communication address
JP2002108873A (en) * 2000-09-25 2002-04-12 Internatl Business Mach Corp <Ibm> Space information utilizing system, information aquiring device and server system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09231244A (en) * 1995-12-22 1997-09-05 Sony Corp Information retrieval device and method therefor
JPH10283362A (en) * 1997-04-02 1998-10-23 Casio Comput Co Ltd Portable information terminal and storage medium
JP2001222494A (en) * 1999-12-01 2001-08-17 Asahi Kasei Corp Device, system and method for retrieving communication address
JP2002108873A (en) * 2000-09-25 2002-04-12 Internatl Business Mach Corp <Ibm> Space information utilizing system, information aquiring device and server system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
岡 隆一、西村 拓一、伊原 正典、張 建新、赤坂 貴志: "音素系列表現を用いた音声およびテキスト検索", 電子情報通信学会技術研究報告, vol. 第101巻,第155号, JPN6009003891, 21 June 2001 (2001-06-21), JP, pages 29 - 35, ISSN: 0002085032 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013521567A (en) * 2010-03-05 2013-06-10 インターナショナル・ビジネス・マシーンズ・コーポレーション System including client computing device, method of tagging media objects, and method of searching a digital database including audio tagged media objects
US8903847B2 (en) 2010-03-05 2014-12-02 International Business Machines Corporation Digital media voice tags in social networks

Also Published As

Publication number Publication date
JP4978810B2 (en) 2012-07-18

Similar Documents

Publication Publication Date Title
CN111696535B (en) Information verification method, device, equipment and computer storage medium based on voice interaction
US9514130B2 (en) Device for extracting information from a dialog
US8219406B2 (en) Speech-centric multimodal user interface design in mobile technology
CN101309327B (en) Sound chat system, information processing device, speech recognition and key words detection
KR101605147B1 (en) Voice recognition grammar selection based on context
CN102782751B (en) Digital media voice tags in social networks
JP4591353B2 (en) Character recognition device, mobile communication system, mobile terminal device, fixed station device, character recognition method, and character recognition program
JP2009205579A (en) Speech translation device and program
US20230108256A1 (en) Conversational artificial intelligence system in a virtual reality space
CN101529447A (en) Improved mobile communication terminal
US11521619B2 (en) System and method for modifying speech recognition result
WO2003102816A1 (en) Information providing system
JP2005115867A (en) Private information storing device and method, and private information managing device and method
JP4978810B2 (en) Terminal device, information distribution device, information distribution system, and program
KR100949353B1 (en) Communication assistance apparatus for the deaf-mutism and the like
AT&T iWalk: A Lightweight Navigation System for Low-Vision Users
Stent et al. Iwalk: a lightweight navigation system for low-vision users
Feng et al. Commute booster: a mobile application for first/last mile and middle mile navigation support for people with blindness and low vision
JP2022018724A (en) Information processing device, information processing method, and information processing program
WO2019098036A1 (en) Information processing device, information processing terminal, and information processing method
EP4131057A1 (en) Information processing device and information processing method
Petrova et al. Method of audio interaction with indoor navigation systems
CN109841209A (en) Speech recognition apparatus and system
CN112182321B (en) Internet information release searching method based on map technology
Braganza et al. Multipurpose Application for the Visually Impaired

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090325

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090427

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090521

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120131

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120313

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120404

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150427

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees