JP6154489B2 - ユーザのデータ入力に応じて情報提供を行うための端末装置、プログラム、およびサーバ装置 - Google Patents

ユーザのデータ入力に応じて情報提供を行うための端末装置、プログラム、およびサーバ装置 Download PDF

Info

Publication number
JP6154489B2
JP6154489B2 JP2015555870A JP2015555870A JP6154489B2 JP 6154489 B2 JP6154489 B2 JP 6154489B2 JP 2015555870 A JP2015555870 A JP 2015555870A JP 2015555870 A JP2015555870 A JP 2015555870A JP 6154489 B2 JP6154489 B2 JP 6154489B2
Authority
JP
Japan
Prior art keywords
data
sentence
instruction
voice
prompt
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015555870A
Other languages
English (en)
Other versions
JPWO2015102082A1 (ja
Inventor
俊治 栗栖
俊治 栗栖
結旗 柘植
結旗 柘植
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Publication of JPWO2015102082A1 publication Critical patent/JPWO2015102082A1/ja
Application granted granted Critical
Publication of JP6154489B2 publication Critical patent/JP6154489B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • H04M1/72454User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to context-related or environment-related conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/42Graphical user interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/25Aspects of automatic or semi-automatic exchanges related to user interface aspects of the telephonic communication service
    • H04M2203/251Aspects of automatic or semi-automatic exchanges related to user interface aspects of the telephonic communication service where a voice mode or a visual mode can be used interchangeably
    • H04M2203/252Aspects of automatic or semi-automatic exchanges related to user interface aspects of the telephonic communication service where a voice mode or a visual mode can be used interchangeably where a voice mode is enhanced with visual information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W88/00Devices specially adapted for wireless communication networks, e.g. terminals, base stations or access point devices
    • H04W88/02Terminal devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W88/00Devices specially adapted for wireless communication networks, e.g. terminals, base stations or access point devices
    • H04W88/14Backbone network devices

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Environmental & Geological Engineering (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、ユーザが端末装置に対し行うデータ入力に応じて、当該ユーザに情報を提供する仕組みに関する。
端末装置のユーザが音声により指示を行うと、端末装置が当該指示に従った処理を行う仕組み(以下、この仕組みを「音声エージェントシステム」という)がある。
例えば、非特許文献1には、音声エージェントシステムの動作例として、ユーザがスマートフォンに「この辺のタクシーを探して!」と話しかけると、スマートフォンがユーザの今いる場所でタクシーを呼べるタクシー会社の情報を表示する、という動作等が紹介されている。
株式会社エヌ・ティ・ティ・ドコモ、"しゃべってコンシェルでできること"、[online]、[平成25年10月18日検索]、インターネット〈URL:http://www.nttdocomo.co.jp/service/information/shabette_concier/feature/index.html〉
音声エージェントシステムによれば、ユーザは音声により端末装置に対し所望する処理の実行を指示することができる。音声による指示(以下、「音声指示」という)は、一般的に文字の入力等による指示と比較し手間が少ないが、音声指示に慣れていないユーザにとっては、どのような発話を行えば端末装置が正しく指示に従った処理を実行してくれるか分からない場合がある。また、音声指示に慣れたユーザであっても、咄嗟に自分の望む処理を指示するための望ましい発話の内容を思いつかない場合がある。
本発明は上記の事情に鑑み、ユーザが音声指示を行う際の困難を軽減することを目的とする。
上述した課題を解決するため、本発明は、ユーザの属性または前記ユーザが置かれている環境の属性を示す属性データを取得する属性データ取得手段と、前記属性データが示す属性に応じた、前記ユーザに対し音声指示を促す文を示す促し文データを取得する促し文データ取得手段と、前記促し文データが示す文の表示を表示装置に指示する表示指示手段と、前記表示装置による前記促し文データが示す文の表示に応じて前記ユーザが発した音声を示す音声データを取得する音声データ取得手段と、前記音声データが表す指示に応じて複数の機能の中から特定された機能と当該機能を用いた処理を識別する処理識別データを取得する処理識別データ取得手段と、前記処理識別データにより識別される機能を用いた前記処理識別データにより識別される処理を実行する処理実行手段とを備える端末装置を提供する。
上記の端末装置において、前記属性データおよび前記音声データをサーバ装置に送信する送信手段を備え、前記促し文データ取得手段は、前記送信手段による前記属性データの送信に対する応答として前記サーバ装置から送信されてくる前記促し文データを受信し、前記処理識別データ取得手段は、前記送信手段による前記音声データの送信に対する応答として前記サーバ装置から送信されてくる前記処理識別データを受信する、という構成が採用されてもよい。
また、上記の端末装置において、前記送信手段は前記音声データが前記音声データ取得手段により取得されたときに前記表示装置により表示されていた文を示す前記促し文データを識別する促し文識別データを前記サーバ装置に送信し、前記処理識別データ取得手段は、前記音声データおよび前記促し文識別データの送信に対する応答として前記サーバ装置から送信されてくる、前記音声データが表す指示および前記促し文識別データにより識別される文の組み合わせに応じた処理を識別する前記処理識別データを受信する、という構成が採用されてもよい。
また、上記の端末装置において、前記属性データ取得手段は、前記ユーザが発した音声を示す音声データを前記属性データとして取得する、という構成が採用されてもよい。
また、本発明は、端末装置のユーザの属性または前記ユーザが置かれている環境の属性を示す属性データを前記端末装置から受信する受信手段と、前記属性データが示す属性に応じた、前記ユーザに対し音声指示を促す文を示す促し文データを取得する促し文データ取得手段と、前記促し文データを前記端末装置に送信する送信手段とを備え、前記受信手段は前記送信手段による前記促し文データの送信の後に前記端末装置から送信されてくる音声データを受信し、前記音声データが表す指示を認識する音声認識手段と、前記指示に応じて複数の機能の中から特定された機能と当該機能を用いた処理を識別する処理識別データを生成する処理識別データ生成手段とを備え、前記送信手段は、前記受信手段により受信された前記音声データに対する応答として前記処理識別データを前記端末装置に送信するサーバ装置を提供する。
上記のサーバ装置において、前記受信手段は、複数の端末装置の各々から前記属性データと前記音声データを受信し、前記受信手段が前記複数の端末装置のうちの各々の端末装置から受信した前記属性データと、前記受信手段が当該端末装置から受信した前記音声データが表す、前記音声認識手段により認識された指示を文として示す指示文データとを対応付けて記憶装置に記憶させる記憶指示手段とを備え、前記促し文データ取得手段は、前記複数の端末装置のうちの一の端末装置から前記受信手段が受信した属性データとの間で予め定められた関係を満たす属性データに対応付けて前記記憶装置に記憶されている指示文データを用いて、当該一の端末装置に対し前記送信手段により送信される促し文データを生成する、という構成が採用されてもよい。
また、上記のサーバ装置において、前記記憶指示手段は、指示文データを、当該指示文データが示す指示が行われた時刻を示す時刻データと対応付けて前記記憶装置に記憶させ、前記促し文データ取得手段は、前記記憶装置に記憶されている複数の指示文データと当該複数の指示文データに対応付けて記憶されている時刻データとに基づき、時間の経過に伴い使用頻度が増加している指示を示す指示文データを特定し、当該特定した指示文データを用いて、前記送信手段により送信される促し文データを生成する、という構成が採用されてもよい。
また、上記のサーバ装置において、前記記憶指示手段は、前記音声認識手段により音声データから生成された指示文データを、当該音声データの送信元の端末装置を識別する端末識別データと対応付けて前記記憶装置に記憶させ、前記促し文データ取得手段は、前記複数の端末装置のうちの一の端末装置に対し前記送信手段により送信される促し文データとして、当該一の端末装置を識別する端末識別データに対応付けて前記記憶装置に記憶されている指示文データが示す指示との間で予め定められた類似性を有しない指示を促す促し文データを生成する、という構成が採用されてもよい。
また、上記のサーバ装置において、複数の処理の中の任意の2つの処理の関連性の高低を示す処理間関連性データを取得する処理間関連性データ取得手段を備え、前記受信手段は前記端末装置から送信されてくる音声データを前記属性データとして受信し、前記音声認識手段は前記属性データが表す指示を認識し、前記処理識別データ生成手段は前記属性データが表す指示に応じた処理を識別する処理識別データを生成し、前記促し文データ取得手段は、前記処理間関連性データが示す、前記属性データが表す指示に応じた処理との間の関連性の高低に基づき、前記複数の処理の中の一の処理を選択し、当該選択した一の処理の指示を促す文を示す促し文データを、前記属性データが示す属性に応じた促し文データとして取得する、という構成が採用されてもよい。
また、本発明は、コンピュータに、ユーザの属性または前記ユーザが置かれている環境の属性を示す属性データを取得するステップと、前記属性データが示す属性に応じた、前記ユーザに対し音声指示を促す文を示す促し文データを取得するステップと、前記促し文データが示す文の表示を表示装置に指示するステップと、前記表示装置による前記促し文データが示す文の表示に応じて前記ユーザが発した音声を示す音声データを取得するステップと、前記音声データが表す指示に応じて複数の機能の中から特定された機能と当該特定された機能を用いた処理を識別する処理識別データを取得するステップと、前記処理識別データにより識別される機能を用いた前記処理識別データにより識別される処理を実行するステップとを実行させるためのプログラムを提供する。
本発明によれば、ユーザに対し、ユーザの属性またはユーザが置かれている環境の属性に応じた、音声指示の促しが行われる。ユーザは、その促しの内容を参考に発話の内容を考えることができる。その結果、音声指示を行う際のユーザの困難が軽減される。
一実施形態にかかる音声エージェントシステムの全体構成を示した図である。 一実施形態にかかる端末装置のハードウェア構成を示した図である。 一実施形態にかかる端末装置の機能構成を示した図である。 一実施形態にかかるサーバ装置のハードウェア構成を示した図である。 一実施形態にかかるサーバ装置の機能構成を示した図である。 一実施形態にかかるサーバ装置が用いる属性データベースの構成を示した図である。 一実施形態にかかるサーバ装置が用いる同義語データベースの構成を示した図である。 一実施形態にかかるサーバ装置が用いる関連性データベースの構成を示した図である。 一実施形態にかかるサーバ装置が用いるログデータベースの構成を示した図である。 一実施形態にかかる端末装置のディスプレイに表示される画面を例示した図である。 一実施形態にかかる端末装置のディスプレイに表示される画面を例示した図である。 一実施形態にかかる端末装置のディスプレイに表示される画面を例示した図である。 一実施形態にかかる端末装置のディスプレイに表示される画面を例示した図である。 一実施形態にかかる端末装置のディスプレイに表示される画面を例示した図である。 一実施形態にかかる端末装置のディスプレイに表示される画面を例示した図である。 一実施形態にかかる端末装置のディスプレイに表示される画面を例示した図である。 一実施形態にかかる音声エージェントシステムが行う処理のシーケンスを示した図である。 一実施形態にかかるサーバ装置が用いる指示文リストの構成を示した図である。 一変形例にかかる端末装置のディスプレイに表示される画面を例示した図である。 一変形例にかかる端末装置のディスプレイに表示される画面を例示した図である。 一変形例にかかる端末装置のディスプレイに表示される画面を例示した図である。 一変形例にかかるサーバ装置が用いる処理間関連性データベースの構成を示した図である。 一変形例にかかるサーバ装置が用いる雛形文データベースの構成を示した図である。 一変形例にかかる端末装置の機能構成を示した図である。 一変形例にかかるサーバ装置の機能構成を示した図である。 一変形例にかかる音声エージェントシステムが行う処理のシーケンスを示した図である。 一変形例にかかる端末装置のディスプレイに表示される画面を例示した図である。 一変形例にかかる端末装置のディスプレイに表示される画面を例示した図である。 一変形例にかかる端末装置のディスプレイに表示される画面を例示した図である。 一変形例にかかる端末装置のディスプレイに表示される画面を例示した図である。 一変形例にかかる端末装置のディスプレイに表示される画面を例示した図である。
1…音声エージェントシステム、11…端末装置、12…サーバ装置、19…通信ネットワーク、101…メモリ、102…プロセッサ、103…通信IF、104…タッチディスプレイ、105…マイク、106…クロック、107…GPSユニット、109…バス、111…属性データ取得手段、112…送信手段、113…促し文データ取得手段、114…表示指示手段、115…音声データ取得手段、116…処理識別データ取得手段、117…処理実行手段、121…受信手段、122…音声認識手段、123…処理識別データ生成手段、124…送信手段、125…記憶指示手段、126…計時手段、127…促し文データ取得手段、201…メモリ、202…プロセッサ、203…通信IF、209…バス、321…処理間関連性データ取得手段、1041…ディスプレイ、1042…タッチパネル
[実施形態]
以下に、本発明の一実施形態にかかる音声エージェントシステム1を説明する。図1は、音声エージェントシステム1の全体構成を示した図である。音声エージェントシステム1は、ユーザが携帯する端末装置11−1〜11−nと、サーバ装置12を備えている。なお、端末装置11−1〜11−nの個数nは音声エージェントシステム1を利用するユーザの数に応じて任意に変化する。以下、端末装置11−1〜11−nの各々を区別せず、それらのいずれかを指す場合、「端末装置11」という。サーバ装置12は、ユーザが端末装置11に対し音声指示を行った場合、その音声の意図解釈を行い、端末装置11に対し実行すべき処理を指示する。なお、図1においては、サーバ装置12は1つの装置として示されているが、例えば互いに連係動作する複数の装置によりサーバ装置12が構成されてもよい。端末装置11とサーバ装置12は通信ネットワーク19を介して互いにデータ通信を行うことができる。
端末装置11のハードウェア構成は、例えば、タッチディスプレイを備えた一般的なスレートデバイス型のパーソナルコンピュータのハードウェア構成と同じであるが、他の形式のコンピュータであってもよい。図2は、端末装置11のハードウェア構成の例として、スレートデバイス型のパーソナルコンピュータのハードウェア構成を示した図である。図2に例示の端末装置11は、ハードウェア構成として、メモリ101と、プロセッサ102と、通信IF(Interface)103と、タッチディスプレイ104と、マイク105と、クロック106と、GPS(Global Positioning System)ユニット107とを備えている。また、これらの構成部はバス109を介して互いに接続されている。
メモリ101は揮発性半導体メモリや不揮発性半導体メモリ等を有する記憶装置であり、OS(Operation System)、アプリケーションプログラム、ユーザデータ等の各種データを記憶するとともに、プロセッサ102によるデータ処理における作業領域として利用される。プロセッサ102はCPU(Central Processing Unit)、GPU(Graphics Processing Unit)等の処理装置である。通信IF103は無線通信により通信ネットワーク19を介して、サーバ装置12との間で各種データ通信を行うインタフェースである。
タッチディスプレイ104は、ディスプレイ1041とタッチパネル1042を有している。ディスプレイ1041は、例えば液晶ディスプレイ等の表示装置であり、文字、図形、写真等を表示する。タッチパネル1042は、例えば静電容量方式のタッチパネルであり、指等のポインタが接触または近接した場合、当該接触または近接の位置を特定することによりユーザの操作を受け付ける入力デバイスである。なお、以下の説明において、接触または近接を便宜的に単に「接触」という。
ディスプレイ1041とタッチパネル1042は積層配置されており、ディスプレイ1041に表示されている画像に対しユーザがポインタを接触させる動作を行うと、実際にはタッチパネル1042にポインタが接触し、その位置が特定される。プロセッサ102は、OSやアプリケーションプログラムに従い、タッチパネル1042により特定された位置に基づき、当該ポインタの接触によるユーザの意図した操作の内容を特定する。
マイク105は音を拾音して音データを生成する拾音装置である。音声エージェントシステム1においては、マイク105はユーザの音声を拾音し、音声データを生成する。クロック106は基準時刻からの経過時間を継続的に計測し、現在時刻を示す時刻データを生成する装置である。GPSユニット107は、複数の衛星からの信号を受信し、受信した信号に基づき端末装置11の現在の位置(すなわちユーザの現在の位置)を特定し、特定した位置を示す位置データを生成する装置である。
上記のハードウェア構成を備える端末装置11は、プロセッサ102がメモリ101に記憶されているプログラムに従う処理を行うことにより、図3に示す機能構成を備える装置として動作する。
端末装置11は、機能構成として、属性データ取得手段111、送信手段112、促し文データ取得手段113、表示指示手段114、音声データ取得手段115、処理識別データ取得手段116、処理実行手段117を備える。
属性データ取得手段111は、端末装置11のユーザの属性もしくはユーザが置かれている環境の属性を示す属性データを取得する。本実施形態においては例として、ユーザの性別、ユーザの年齢、ユーザの現在位置、および現在時刻を示すデータが属性データとして用いられる。なお、ユーザの性別および年齢はユーザの属性の例であり、ユーザの現在位置および現在時刻は、ユーザが置かれている環境の属性の例である。ユーザの性別および年齢を示すデータは、例えばタッチパネル1042を用いたユーザの操作により端末装置11に入力され、属性データ取得手段111はユーザに入力されたこれらのデータを取得する。また、ユーザの現在位置を示すデータは、例えばGPSユニット107により生成される位置データを属性データ取得手段111が取得する。なお、本実施形態において、現在時刻を示すデータ(時刻データ)はサーバ装置12において生成され利用されるため、属性データ取得手段111は時刻データを取得する必要はない。
送信手段112は、属性データ取得手段111により取得された属性データをサーバ装置12に送信する。また、送信手段112は、音声データ取得手段115により取得された音声データをサーバ装置12に送信する。
促し文データ取得手段113は、端末装置11のユーザに対し音声指示を促す文を示すデータである促し文データを、サーバ装置12から受信することにより取得する。表示指示手段114は、促し文データ取得手段113により取得された促し文データが示す文の表示をディスプレイ1041に指示する。
音声データ取得手段115は、ユーザにより発せられ、マイク105により拾音された音声を示す音声データをマイク105から取得する。音声データ取得手段115により取得された音声データは、上述の送信手段112によりサーバ装置12に送信される。処理識別データ取得手段116は、送信手段112により送信された音声データに対する応答としてサーバ装置12から送信されてくる処理識別データを取得する。処理識別データ取得手段116が取得する処理識別データは、送信手段112がサーバ装置12に送信した音声データが表す指示に応じた処理を識別するデータである。本実施形態においては、例として、処理識別データは機能を識別する機能IDと、当該機能における具体的な処理を特定するパラメータとの組み合わせにより処理を識別するデータである。
処理実行手段117は、処理識別データ取得手段116が取得した処理識別データにより識別される処理を実行する。
続いて、サーバ装置12の構成を説明する。サーバ装置12のハードウェア構成は、外部の装置との間で通信ネットワーク19を介したデータ通信が可能な一般的なコンピュータのハードウェア構成と同じである。図4は、サーバ装置12のハードウェア構成を示した図である。すなわち、サーバ装置12は、ハードウェア構成として、メモリ201と、プロセッサ202と、通信IF203を備えている。また、これらの構成部はバス209を介して互いに接続されている。
メモリ201は揮発性半導体メモリや不揮発性半導体メモリ等を有する記憶装置であり、OS、アプリケーションプログラム、ユーザデータ等の各種データを記憶するとともに、プロセッサ202によるデータ処理における作業領域として利用される。プロセッサ202はCPU、GPU等の処理装置である。通信IF203は通信ネットワーク19を介して他の装置との間で各種データ通信を行うインタフェースである。
サーバ装置12は、メモリ201に記憶されているプログラムに従う処理を行うことにより、図5に示す機能構成を備える装置として動作する。すなわち、サーバ装置12は、機能構成として、受信手段121、音声認識手段122、処理識別データ生成手段123、送信手段124、記憶指示手段125、計時手段126、促し文データ取得手段127を備える。
受信手段121は、複数の端末装置11の各々から送信されてくる属性データを受信する。また、受信手段121は、複数の端末装置11の各々から送信されてくる音声データを受信する。
音声認識手段122は、受信手段121により受信された音声データが表す指示を、既知の音声認識処理により認識し、認識した指示を文で示す指示文データを生成する。処理識別データ生成手段123は、音声認識手段122により生成された指示文データに応じた処理を識別する処理識別データを生成する。
送信手段124は、処理識別データ生成手段123により生成された処理識別データを、当該処理識別データの生成に用いられた音声データの送信元の端末装置11に送信する。また、送信手段124は、促し文データ取得手段127により取得された促し文データを、当該促し文データの取得に用いられた属性データの送信元の端末装置11に送信する。
記憶指示手段125は、受信手段121がいずれかの端末装置11から受信した属性データと、受信手段121が同じ端末装置11から受信した音声データを用いて音声認識手段122が生成した指示文データと、当該指示文データが示す指示が行われた時刻を示す時刻データ(計時手段126が生成)とを互いに対応付けてメモリ201に記憶させる。
計時手段126は、現在時刻を示す時刻データを生成する。促し文データ取得手段127は、受信手段121がいずれかの端末装置11から受信した属性データが示す属性に応じた促し文データを、メモリ201に記憶されている様々な端末装置11から受信された属性データとそれらの属性データに対応付けてメモリ201に記憶されている指示文データ等のデータを用いて生成することにより取得する。
続いて、端末装置11およびサーバ装置12に記憶されているデータの構成を説明する。端末装置11のメモリ101には、端末装置11を識別する端末識別データと、ユーザの性別および年齢を示すデータが記憶されている。端末識別データは、例えば端末装置11が本実施形態にかかるプログラムを最初に起動した際に、サーバ装置12から取得したデータである。また、ユーザの性別および年齢を示すデータは、例えばユーザがタッチパネル1042を用いて入力したデータである。
サーバ装置12のメモリ201には、端末装置11のユーザの属性データを管理する属性データベースと、基本となるキーワード(基本キーワード)とそのキーワードと同義のキーワード(同義キーワード)との対応関係を示す同義語データを管理する同義語データベースと、様々なキーワードと様々な機能との間の関連性の高低を示す関連性データを管理する関連性データベースと、端末装置11のユーザにより行われた音声指示に関するログデータを管理するログデータベースが記憶されている。
図6は、属性データベースの構成例を示した図である。属性データベースは端末装置11の各々に応じたデータレコードの集まりであり、データフィールドとして[端末識別データ]、[性別]、[年齢]、[位置]を有している。なお、以下、[(データフィールド名)]は、データフィールド名で特定されるデータフィールドを示す。これらのフィールドには、フィールド名に応じたデータが格納される。[端末識別データ]、[性別]、[年齢]には、例えば端末装置11において本実施形態にかかるプログラムを最初に起動した時等の適当なタイミングで、端末装置11からサーバ装置12に送信されたデータが格納され、[年齢]に関しては必要に応じて更新される。[位置]は端末装置11が音声指示の待機状態(後述)になった時等の適当なタイミングで、端末装置11からサーバ装置12に送信される位置データにより頻繁に更新される。
図7は、同義語データベースの構成例を示した図である。同義語データベースは、様々な基本キーワードの各々に応じたデータレコードの集まりであり、データフィールドとして[基本キーワード]、[同義キーワード]を有している。なお、以下、[(データフィールド名)]は、データフィールド名で特定されるデータフィールドを示す。これらのデータフィールドの各々にはデータフィールド名に応じたデータが格納される。なお、1つの基本キーワードに対応する同義キーワードの数は様々である。
図8は関連性データベースの構成例を示した図である。関連性データベースは、キーワードの各々に応じたデータレコードの集まりであり、データフィールドとして[キーワード]、[種別]、[機能ID]、[機能名]、[パラメータ]、[スコア]を有している。
[キーワード]には、キーワード(同義語データベースに格納されるいずれかの基本キーワード)を示すテキストデータが格納される。[種別]には、キーワードの種別(複数可)を示すテキストデータが格納される。例えば、図8の第1のデータレコードの[種別]には、キーワード「ラーメン」の種別として「料理名」が格納されている。
[機能ID]には、機能を識別する機能IDが格納される。[機能名]には、機能の名称を示すテキストデータが格納される。なお、以下、個々の機能を示す場合、機能「(機能名)」のようにいう。
[パラメータ]には、機能において用いられるパラメータの種別を示すテキストデータが格納される。例えば、図8の第1のデータレコードの[パラメータ]に格納されている「料理名、現在位置」というデータは、機能「レストラン検索」において、種別が「料理名」であるキーワードと、現在位置が用いられることを示す。
[スコア]には、キーワードと機能の関連性の高低を示す数値データであるスコアが格納される。なお、関連性データベースの各々のデータレコードは、[機能ID]、[機能名]、[パラメータ]、[スコア]に複数組のデータを格納することができる。
図9は、ログデータベースの構成例を示した図である。ログデータベースは、様々な端末装置11のユーザにより行われた音声指示の各々に応じたデータレコードの集まりであり、データフィールドとして[端末識別データ]、[時刻]、[位置]、[指示文]、[処理識別データ]を有している。[端末識別データ]には音声指示を表す音声データの送信元の端末装置11の端末識別データが格納される。[時刻]には音声指示が行われた時刻を示すデータが格納される。[位置]には音声指示が行われた時のユーザ(すなわち端末装置11)の位置を示すデータが格納される。[指示文]には、音声データが表す指示を文として示す指示文データが格納される。[処理識別データ]には、音声指示に応じた処理を識別する処理識別データが格納される。
続いて、上記の構成を備える音声エージェントシステム1の動作を説明する。図10A〜10Cおよび11A〜11Dは、音声エージェントシステム1において、ユーザが音声指示を行う場合に端末装置11のディスプレイ1041に表示される画面を例示した図である。図10A〜10Cは、端末装置11がユーザによる音声指示の待機を開始してから所定時間(例えば、10秒間)の経過前にユーザによる音声指示が行われた場合にディスプレイ1041に表示される画面の推移を示している。一方、図11A〜11Dは、端末装置11がユーザによる音声指示の待機を開始してから所定時間が経過してもユーザによる音声指示が行われなかった場合にディスプレイ1041に表示される画面の推移を示している。
図10Aは、ユーザからの音声指示を待機している間にディスプレイ1041に表示される対話画面を示している。待機状態において、対話画面には、ユーザに対し音声指示を促す既定の促し文として、例えば「何かご用ですか?」という文が表示される。図10Bに示すように、対話画面がディスプレイ1041に表示されている状態でユーザが音声指示を行うと、端末装置11により音声指示に応じた処理が行われ、図10Cに示すように、音声指示に応じた画面(処理実行画面)がディスプレイ1041に表示される。
図11Aは、図10Aと同じく、待機状態の対話画面を示している。待機状態の対話画面の表示が開始された後、所定時間(例えば、10秒間)が経過してもユーザによる音声指示が行われないと、図11Bに示すように、ディスプレイ1041にはユーザに対し音声指示を促す新たな促し文が表示される。この促し文は、端末装置11のユーザの性別および年齢(ユーザの属性)と、ユーザの現在位置および現在時刻(ユーザの置かれている環境の属性)とに応じて生成された促し文である。従って、この促し文はユーザにとって自分の行いたい音声指示の内容と何らかの共通性を有している可能性が高い。そして、図11Cに示すようにユーザが音声指示を行うと、端末装置11により音声指示に応じた処理が行われ、図11Dに示すように、音声指示に応じた処理実行画面がディスプレイ1041に表示される。
図12は、ユーザが音声指示を行う場合に音声エージェントシステム1が行う処理のシーケンスを示した図である。以下に図12を参照しつつ、音声エージェントシステム1が行う処理を説明する。
まず、ユーザが端末装置11に対し所定の操作を行うと、端末装置11の表示指示手段114はディスプレイ1041に待機状態の対話画面(図10Aまたは図11A)を表示させる(ステップS101)。待機状態の開始に伴い、端末装置11の属性データ取得手段111はGPSユニット107から端末装置11の現在位置(すなわち、ユーザの現在位置)を示す位置データを取得する。送信手段112は、属性データ取得手段111が取得した位置データを、メモリ101に記憶されている端末識別データとともにサーバ装置12に送信する(ステップS102)。
なお、端末装置11とサーバ装置12との間で確立された通信コネクションはディスプレイ1041に対話画面が表示されている間、維持され、サーバ装置12は通信コネクションの確立時に端末装置11を識別すると、その後は通信コネクションが解除されるまで、通信コネクションにより端末装置11を識別し続けることができる。そのため、端末装置11はステップS102においてサーバ装置12に対し端末識別データを送信した後、以下に説明する処理において、サーバ装置12に再び端末識別データを送信する必要はない。
サーバ装置12の受信手段121は、端末装置11から送信されてくる端末識別データと位置データを受信する(ステップS103)。記憶指示手段125は、メモリ201から属性データベース(図6)を読み出し、ステップS103において受信手段121が受信した端末識別データを[端末識別データ]に格納するデータレコードの[位置]に受信手段121が受信した位置データを格納(上書き)する。記憶指示手段125は、このように更新した属性データベースをメモリ201に記憶させる(ステップS104)。
ステップS104の後、ステップS105〜S108の処理が引き続き行われるが、それらの処理において用いられるデータの一部は以下に説明するステップS111〜S121の処理において生成されるため、先にステップS111〜S121の説明を行う。
端末装置11の音声データ取得手段115は、待機状態の開始に伴い、ステップS102の処理と並行して、マイク105からユーザの音声を示す音声データが出力されるのを待つ。ユーザにより音声指示が行われると(ステップS111;「Yes」)、マイク105から音声データが出力され、音声データ取得手段115はこの音声データを取得する(ステップS112)。送信手段112は、音声データ取得手段115が取得した音声データをサーバ装置12に送信する(ステップS113)。
サーバ装置12の受信手段121により、端末装置11から送信された音声データが受信されると(ステップS114)、音声認識手段122は音声データが表す音声の内容を認識して、認識した内容を文として示す発話文データ(同義語の変換が行われる前の指示文を示す指示文データ)を生成する(ステップS115)。例えば、図10Bに例示のように、ユーザが「新宿駅はどこ?」という音声指示を行うと、音声認識手段122は「新宿駅はどこ?」という文を示す発話文データを生成する。
続いて、処理識別データ生成手段123は、音声認識手段122が生成した発話文データが示す文に含まれるキーワード(同義キーワード)を、同義語データベース(図7)に格納されている同義語データに従い基本キーワードに変換し、変換後の文(指示文)を示す指示文データを生成する(ステップS116)。例えば、ステップS115において「新宿駅はどこ?」という文を示す発話文データが生成された場合、ステップS116において、同義語キーワード「どこ?」が基本キーワード「どこですか?」に変換されて、「新宿駅はどこですか?」という文を示す指示文データが生成される。
続いて、処理識別データ生成手段123は、ステップS116において生成した指示文データが示す指示文に応じた処理を特定し、特定した処理を識別する処理識別データを生成する(ステップS117)。具体的には、処理識別データ生成手段123は、まず、指示文データが示す指示文に含まれるキーワードを抽出する。続いて、処理識別データ生成手段123は抽出したキーワードの各々に関し、当該キーワードを[キーワード]に格納するデータレコードを関連性データベース(図8)から抽出する。続いて、処理識別データ生成手段123は抽出した1以上のデータレコードの[機能ID]に格納されている機能ID毎に、[スコア]に格納されているスコアを合算する。
例えば、ステップS116において「新宿駅はどこですか?」という文を示す指示文データが生成された場合、処理識別データ生成手段123はキーワードとして「新宿駅」と「どこですか?」を抽出する。続いて、処理識別データ生成手段123は関連性データベースから[キーワード]に「新宿駅」を格納するデータレコード(図8の第4のデータレコード)と、[キーワード]に「どこですか?」を格納するデータレコード(図8の第5のデータレコード)を抽出する。そして、処理識別データ生成手段123は抽出したこれらのデータレコードの[機能ID]に格納される「F0356」、「F2527」、・・・の各々に関し、[スコア]に格納されている数値を合算する。その結果、例えば、機能ID「F0356」で識別される機能「乗換案内」のスコアが「14」、機能ID「F2527」で識別される機能「マップ表示」のスコアが「18」、・・・という具合に、指示文に応じた各機能のスコアが特定される。
処理識別データ生成手段123は、上記のように特定したスコアが最も大きい機能を、指示文に応じた機能として特定する。続いて、処理識別データ生成手段123は、指示文データから抽出したキーワードの中から、特定した機能に対応する関連性データの[パラメータ]に格納されるデータが示す種別のキーワードを抽出する。そして、処理識別データ生成手段123は、上記のように特定した機能を識別する機能IDを含み、また、抽出したキーワード(もしあれば)をパラメータとして含む処理識別データを生成する。例えば、処理識別データ生成手段123は「新宿駅はどこですか?」という指示文に対応する処理識別データとして、機能「マップ表示」の機能ID「F2537」と、パラメータ「新宿駅」を含む処理識別データを生成する。
送信手段124は、処理識別データ生成手段123が生成した処理識別データを、ステップS114において受信手段121が受信した音声データに対する応答として、音声データの送信元の端末装置11に送信する(ステップS118)。端末装置11の処理識別データ取得手段116は、サーバ装置12から送信されてくる処理識別データを受信する(ステップS119)。処理実行手段117は、処理識別データ取得手段116が受信した処理識別データにより識別される処理を実行する(ステップS120)。その結果、図10Cに例示したような処理実行画面がディスプレイ1041に表示される。
一方、サーバ装置12において、ステップS118の処理と並行して、記憶指示手段125はログデータベース(図9)の更新処理を行う(ステップS121)。具体的には、記憶指示手段125は、メモリ101からログデータベースを読み出し、新しいデータレコードを追加する。続いて、記憶指示手段125は、ステップS103において受信された端末識別データおよび位置データと、ステップS116において生成された指示文データと、ステップS117において生成された処理識別データとを、追加したデータレコードの[端末識別データ]、[位置]、[指示文]、[処理識別データ]に各々格納する。また、記憶指示手段125は、計時手段126からその時点の現在時刻を示す時刻データを取得し、[時刻]に格納する。記憶指示手段125は、このように更新したログデータベースをメモリ201に記憶させる。
なお、この場合、[時刻]に格納される時刻データは、正確には音声指示が行われた時刻よりもステップS112〜S117の実行に要する時間だけ後の時刻を示すが、その差は実用上無視できる程度であるため、この時刻データは音声指示が行われた時刻を示すデータとして利用される。[位置]に格納される位置データも同様に、正確には音声指示が行われた時点におけるユーザの位置と異なる位置を示す場合があるが、その差も実用上無視できる程度であるため、この位置データは音声指示が行われた時点におけるユーザの位置を示すデータとして利用される。ただし、より正確な時刻や位置を示すデータをログデータベースに格納するために、例えば端末装置11が計時手段を備え、ステップS112において音声データを取得した時刻を示す時刻データをサーバ装置12に送信し、また、端末装置11がステップS112において音声データを取得した時点でGPSユニット107により生成される位置データをサーバ装置12に送信し、サーバ装置12がこれらのデータをログデータベースに格納する構成としてもよい。
ステップS121の処理は、様々な端末装置11のユーザにより音声指示が行われる毎に行われる。その結果、ログデータベース(図9)には、様々な端末装置11の音声指示に関する多数のログデータが格納されることになる。ログデータベースに格納されているログデータは、以下に説明する促し文データの生成に用いられる。
続いて、ステップS104に続いて行われるステップS105〜S108の処理を説明する。ステップS104において記憶指示手段125により属性データベース(図6)の更新が行われた後、促し文データ取得手段127は、端末装置11のユーザの属性と類似の属性のユーザにより過去に行われた音声指示に関するログデータをログデータベース(図9)から抽出する(ステップS105)。
具体的には、促し文データ取得手段127は、ログデータベース(図9)に属性データベース(図6)を[端末識別データ]をキーとして結合したデータベースを生成し、ステップS104において更新された属性データと、[性別]に格納されているデータが示す性別が共通しており、[年齢]に格納されているデータが示す年齢の差が所定の閾値以下(例えば、前後各5年以内)であり、[位置]に格納されているデータが示す位置の間の距離が所定の閾値以下(例えば、1km以内)であり、[時刻]に格納されているデータが示す時刻(日付は考慮しない)が所定の閾値以下(例えば、前後1各時間以内)であるデータレコードを、属性データベースを結合したログデータベースから抽出する。
続いて、促し文データ取得手段127は、ステップS105において抽出したデータレコードを用いて促し文データを生成する(ステップS106)。具体的には、まず、促し文データ取得手段127は、[処理識別データ]に格納されているデータが同じもの毎にグループ化する。そして、促し文データ取得手段127は、各グループに含まれるデータレコードの数をカウントする。また、促し文データ取得手段127は、各グループに含まれるデータレコードの[指示文]に格納されているデータのうち数が最も多いものを、そのグループの代表的な指示文データとして特定する。その結果、促し文データ取得手段127により、図13に例示するデータテーブル(以下、「指示文リスト」という)が生成される。指示文リストはデータフィールドとして[処理識別データ]、[指示文]、[数]を有している。[指示文]には、[処理識別データ]に格納されるデータにより識別される処理の指示に用いられた代表的な指示文を示す指示文データが格納される。また、[数]には、[処理識別データ]に格納されるデータにより識別される処理の指示が行われた回数を示すデータが格納される。
促し文データ取得手段127は、指示文リストから、[数]に格納されているデータが示す数が多い順に所定数(例えば、10個)のデータレコードを選択し、選択したデータレコードの[指示文]に格納されている指示文データを用いて、例えば「最近、「XXX」なんて質問をよくされます。」(ただし、「XXX」は各々の指示文データが示す指示文)という文を示す促し文データを生成する。なお、促し文データ取得手段127が生成する促し文データが示す文の形式は上記の例に限られず、例えば、指示文データをそのまま促し文データとして生成してもよいし、指示文データが示す文の一部を取り出して雛形文に埋め込むことにより生成される文を示すデータを促し文データとして生成するようにしてもよい。
送信手段124は、促し文データ取得手段127が生成した促し文データを、ステップS103において受信手段121が受信した端末識別データおよび位置データに対する応答として、それらのデータの送信元の端末装置11に送信する(ステップS107)。端末装置11の促し文データ取得手段113は、サーバ装置12から送信されてくる促し文データを受信する(ステップS108)。
上記により、端末装置11はサーバ装置12から、ユーザの属性およびユーザの置かれている状況の属性に応じた促し文データを所定数(例えば、10個)、取得する。その状態で、端末装置11が音声指示の待機状態となった後、所定時間(例えば、10秒間)が経過しても音声指示が行われなかった場合(ステップS131;「Yes」)、表示指示手段114は、ステップS108において受信された所定数の促し文データの中から、例えばランダムに、促し文データを1つ選択し、選択した促し文データが示す文を提示する対話画面をディスプレイ1041に表示させる(ステップS132)。その結果、図11Bに例示したような対話画面がディスプレイ1041に表示される。
その後、ユーザにより音声指示が行われれば(ステップS111;「Yes」)、ステップS112〜S121の処理が繰り返され、例えば図11Dに例示したような処理実行画面がディスプレイ1041に表示される。一方、ユーザにより音声指示が行われた後、もしくは、ディスプレイ1041に表示される促し文が変更された後、音声指示が行われないで所定時間が経過すると(ステップS131;「Yes」)、ステップS132の処理が繰り返され、新たな促し文を提示する対話画面がディスプレイ1041に表示される。
以上のように、音声エージェントシステム1によれば、ユーザが音声指示を行うに際して、速やかに指示の内容が思い浮かばないような場合、ユーザの属性やユーザが置かれている環境の属性に応じた促し文がユーザに対し提示される。その結果、ユーザは音声指示を容易に行うことができる。
[変形例]
上述した音声エージェントシステム1は本発明の一実施形態であって、本発明の技術的思想の範囲内において様々に変形することができる。以下にそれらの変形の例を示す。以下の変形例の説明において、変形例が上述した実施形態と異なる部分を主に説明し、実施形態と同様の構成や動作については適宜、その説明を省略する。また、以下の変形例にかかる音声エージェントシステムが備える構成部のうち、上述した実施形態にかかる音声エージェントシステム1が備える構成部と共通もしくは対応する構成部には、上述した実施形態において用いた符号と同じ符号を用いる。なお、上述した実施形態および下記の変形例のうちの2以上が適宜組み合わされてもよい。
(1)促し文データ取得手段127が促し文データを生成する際、ログデータベース(図9)に格納されている指示文データのうち、例えば現在から過去の所定期間において、時間の経過に伴い使用頻度が増加している指示を示す指示文データをログデータの[時刻]に格納されている時刻データと[指示文]に格納されている指示文データに基づき特定し、特定したそれらの指示文データを用いて促し文データの生成を行う構成としてもよい。
この変形例によれば、最近、多くのユーザにより頻繁に使用されている音声指示を例示する促し文が高い確率でユーザに対し提示されることになる。従って、その時点で他の多くのユーザの注目を集めている、いわゆる旬な情報を得たいようなユーザにとって、この変形例は望ましい。
(2)促し文データ取得手段127が、例えば端末装置11−Xに送信される促し文データを生成する際、ログデータベース(図9)に格納されている、端末装置11−Xの端末識別データに対応付けて記憶されているいずれかの指示文データが示す指示との間で予め定められた類似性を有しない指示を促す促し文データを生成する構成としてもよい。
この変形例の一具体例として、促し文データ取得手段127は、ログデータベースにおいて、端末装置11−Xの端末識別データに対応付けて記憶されている処理識別データを抽出し、抽出した処理識別データに含まれる機能IDを含む処理識別データを[処理識別データ]に格納しているログデータを除外して、促し文データの生成に用いる。この場合、端末装置11−Xのユーザには、自分が過去に音声指示により利用した機能とは異なる機能を用いた処理の実行を指示する音声指示を促す促し文が提示されることになる。従って、ユーザは、過去に利用したことのない機能を利用するきっかけを得ることができる。
また、この変形例の他の具体例として、促し文データ取得手段127は、ログデータベースに格納されているログデータのうち、端末装置11−Xの端末識別データを[端末識別データ]に格納しているログデータを除外し、端末装置11−Xとは異なる端末装置11に関するログデータのみを用いて、促し文データの生成を行う。ログデータベースに格納されているログデータの数が少ないような場合、端末装置11−Xに送信される促し文データの生成において、端末装置11−Xが過去に行った音声指示に関するログデータに含まれる指示文データが促し文データの生成に用いられる確率が高くなるが、この場合、そのような不都合が生じない。
ユーザにとって、自分が過去に行った音声指示は既知であり、通常、同様の音声指示を行うことに困難は伴わないため、本発明の目的に照らした場合、自分が過去に行った音声指示と同じ、もしくは類似の音声指示を促す促し文が提示されることは望ましくない。本変形例によれば、そのような不都合の発生確率が低下する。
(3)図12のステップS132においてディスプレイ1041により促し文の表示が行われている時にユーザによる音声指示が行われた場合、音声指示が行われた時に表示されていた促し文を示す促し文データを識別する促し文識別データを、例えば音声データとともに、サーバ装置12に送信し、サーバ装置12において、処理識別データ生成手段123が処理識別データを生成する際、指示文データが示す指示(音声データが表す指示)と、促し文識別データにより識別される促し文データが示す文との組み合わせに応じた処理を識別する処理識別データを生成する構成としてもよい。
図14A〜14Cは、本変形例においてディスプレイ1041に表示される画面を例示している。図14Aに例示の画面においては、「最近、「秋葉原劇場って何?」という質問をよく耳にするよ。」という促し文が表示されている(図12のステップS132)。この促し文に応じて、ユーザが図14Bに示すように、例えば「それ、僕も興味ある」と発話すると、送信手段112は、ユーザの「それ、僕も興味ある」という音声指示を表す音声データとともに、「最近、「秋葉原劇場って何?」という質問をよく耳にするよ。」という促し文を示す促し文データをサーバ装置12に送信する(図12のステップS113)。
サーバ装置12において、処理識別データ生成手段123は、「それ、僕も興味ある」という指示文に含まれる「それ」が、「最近、「秋葉原劇場って何?」という質問をよく耳にするよ。」という促し文に含まれる「秋葉原劇場」であると特定し、「秋葉原劇場、僕も興味ある」という文を生成し、この文に応じた処理識別データを生成する(図12のステップS117)。もしくは、処理識別データ生成手段123は、単純に「それ、僕も興味ある」という指示文と、「秋葉原劇場って何?」という促し文の一部(「 」で囲まれている部分)とに含まれているキーワードを抽出して、音声指示に応じた処理の特定を行う構成としてもよい。上記のように生成された処理識別データにより識別される処理が端末装置11において処理実行手段117により実行される結果、図14Cに示すように、音声指示に応じた処理実行画面がディスプレイ1041に表示される。
なお、上記の例では、端末装置11からサーバ装置12に対し、促し文データが送信される。本変形例において、端末装置11からサーバ装置12に対し送信されるデータは促し文を識別するデータ(促し文識別データ)であればよく、促し文データはその一例である。従って、例えば、サーバ装置12が端末装置11に促し文データを送信する際(図12のステップS107)、個々の促し文データに促し文識別データを付して送信し、端末装置11がサーバ装置12に対し、促し文データではなく促し文データに付された促し文識別データを送信する構成が採用されてもよい。
本変形例によれば、ユーザが促し文に例示される音声指示と同じもしくは類似の音声指示を行いたい場合、例示されている音声指示を読み上げる必要はなく、より自然な発話により端末装置11に対する音声指示を行うことができる。
(4)上述した実施形態においては、促し文データの生成に用いられるユーザの属性として、ユーザの性別および年齢が用いられる。また、促し文データの生成に用いられるユーザの置かれている環境の属性として、ユーザの現在位置および現在時刻が用いられる。本発明において、促し文データの生成に用いられるユーザの属性およびユーザの置かれている環境の属性はこれらに限られず、他に様々な種別の属性が採用可能である。
例えば、性別および年齢に加えて、もしくはこれらに代えて、ユーザの趣味、職業、過去に音声指示を行った回数(音声指示の習熟度を示す)、過去に音声指示を行った頻度等が、ユーザの属性として促し文データの生成に利用されてもよい。
また、例えば、現在位置および現在時刻に加えて、もしくはこれらに代えて、ユーザのいるエリアにおける現在の天気や気温、ユーザが自宅、オフィス、その他の場所のいずれにいるか、平日と休日のいずれであるか、等の情報が、ユーザの置かれている環境の属性として促し文データの生成に利用されてもよい。
(5)ユーザが過去(例えば、最後)に行った音声指示は、ユーザがどのような興味や要求を持っているか、という属性を示す。従って、ユーザが過去に行った音声指示を、ユーザの属性として促し文データの生成に用いる構成が採用されてもよい。この変形例において、サーバ装置12のメモリ201には、端末装置11が実行可能な複数の処理の中の任意の2つの処理の各々に関し、それらの処理の間の関連性の高低を示す処理間関連性データを管理する処理間関連性データベースと、複数の処理の各々に応じた促し文の雛形を示す雛形文データを管理する雛形文データベースが記憶されている。
図15は、処理間関連性データベースの構成例を示した図である。本変形例においては、例として、機能の単位で処理間の関連性を特定するものとする。従って、処理間関連性データベースは、端末装置11が実行可能な複数の機能の各々に応じたデータレコードの集まりであり、データフィールドとして[第1の機能]と[第2の機能]を有している。[第1の機能]には、第1の機能の機能IDを格納する[機能ID]と、第1の機能の機能名を格納する[機能名]がサブフィールドとして含まれる。[第2の機能]には、複数の第2の機能(第1の機能と関連性がある全ての他の機能)の各々に関し、第2の機能の機能IDを格納する[機能ID]と、第2の機能の機能名を格納する[機能名]と、第1の処理と第2の処理との関連性の高低と示す数値であるスコアを格納する[スコア]がサブフィールドとして含まれる。
例えば、図15の第1行に例示されるデータは、機能ID「F1025」で識別される機能「レストラン検索」と、機能ID「F0356」で識別される機能「乗換案内」との関連性の高低を示すスコアが「10」であることを示している。
図16は、雛形文データベースの構成例を示した図である。雛形文データベースは、端末装置11が実行可能な複数の機能の各々に応じたデータレコードの集まりであり、データフィールドとして、機能IDを格納する[機能ID]と、機能名を格納する[機能名]と、機能を促す促し文の雛形を示す雛形文データを格納する[雛形文]を有している。
例えば、図16の第1行に例示されるデータは、機能ID「F0356」で識別される機能「乗換案内」に対応する雛形文が、「(場所)に電車で行きたい」であることを示している。なお、「(場所)」は、この位置に、種別に「場所」を含むキーワード(図8参照)が挿入されることを示す。
図17は、本変形例における端末装置31の機能構成を示した図である。端末装置31は音声データを属性データとして取得する。従って、端末装置31は属性データ取得手段111と音声データ取得手段115を区別なく1つの構成部として備える。
図18は、本変形例におけるサーバ装置32の機能構成を示した図である。サーバ装置32は、例えばメモリ201から処理間関連性データベース(図15)を読み出し、処理間関連性データを取得する処理間関連性データ取得手段321を備える。
また、サーバ装置32の促し文データ取得手段127は、処理間関連性データに従い、例えば最後に処理識別データ生成手段123により生成された処理識別データにより識別される処理との間の関連性の高低に基づき、端末装置31において実行可能な複数の処理の中から1つの処理を選択し、選択した処理の指示を促す促し文データを生成する。
図19は、本変形例において音声エージェントシステム1が行う処理のシーケンスを示した図である。なお、図19において、図12と共通または対応するステップには図12において用いた番号と同じ番号が付されている。
本変形例においては、まず、対話画面の表示が開始された後(ステップS101)、端末装置31のユーザによる音声指示が行われる。その後、端末装置31とサーバ装置32は音声指示に応じた一連の処理(ステップS112〜S120)を行い、音声指示に応じた処理が端末装置31において実行される。
ただし、本変形例においては、サーバ装置32は、音声指示に応じた処理を識別する処理識別データの生成(ステップS117)の後、促し文データの生成(ステップS301)を行い、処理識別データの送信(ステップS118)において、ステップS301において生成した促し文データを併せて送信する。端末装置31は、音声データの送信(ステップS113)に応じて処理識別データとともにサーバ装置32から送信されてくる促し文データを受信する(ステップS119)。ステップS119において受信された促し文データは、その後、促し文の表示(ステップS132)において用いられる。
サーバ装置32がステップS301において促し文データを生成する手順の例を以下に説明する。まず、処理間関連性データ取得手段321は、処理間関連性データベース(図15)から、処理識別データ生成手段123がステップS117において生成した処理識別データに含まれる機能IDを[第1の機能]の[機能ID]に格納するデータレコードを検索し、促し文データ取得手段127に引き渡す。
促し文データ取得手段127は、処理間関連性データ取得手段321から受け取ったデータレコードの[第2の機能]に含まれるデータにおいて、[スコア]が示す数値が最大である[機能ID]に格納される機能IDを、ユーザが最後に行った音声指示に応じた機能に関連性が最も高い機能を識別する機能IDとして選択する。続いて、促し文データ取得手段127は、雛形文データベース(図16)から、選択した機能IDに応じたデータレコードを検索し、検索したデータレコードの[雛形文]に格納されている雛形文データを取得する。
続いて、促し文データ取得手段127は、雛形文データが示す「(場所)」等の部分に、処理識別データ生成手段123がステップS117において生成した処理識別データに含まれるキーワードのうち、種別が一致するものがあれば、そのキーワードを「(場所)」等の文字列と置換する。置換後の文を示すデータが促し文データとなる。以上が、ステップS301においてサーバ装置32が促し文データを生成する手順の例である。
図20A〜20Eは、本変形例において、端末装置31のディスプレイ1041に表示される画面の推移を例示した図である。対話画面において、まずユーザが音声指示を行い(図20A)、音声指示に応じた処理が端末装置31により実行される(図20B)。その後、ユーザが暫く端末装置31に音声指示を行わないと、ディスプレイ1041には音声指示を促す促し文が表示される(図20C)。この促し文は、ユーザが最後に行った音声指示に応じた処理と関連性が高い処理の指示を促す文である。ユーザが促し文に促されて新たな音声指示を行うと(図20D)、新たな音声指示に応じた処理が端末装置31により実行される(図20E)。
(6)上述した実施形態においては、促し文データの生成において用いるログデータが示す音声指示が行われた時刻の新旧については特に制限を設けず、ログデータベースに格納されている全てのログデータをステップS105(図12)の抽出の対象としている。これに代えて、ログデータベースに格納されているログデータのうち、例えば現在から過去所定期間(例えば、1年間)に行われた音声指示に関するログデータのみを促し文データの生成において用いる構成としてもよい。
(7)促し文データ取得手段127が促し文データを生成する際、ログデータベースに格納されているログデータのうち、[処理識別データ]に特定の機能IDを含む処理識別データが格納されているログデータを除外し、それらの特定の機能IDを含まないログデータのみを用いる構成としてもよい。
ある種の機能(例えば、スケジュール管理など)を用いた処理の実行を指示する場合、ユーザに固有の言葉(知人の名前など)が多用される場合がある。従って、その種の機能に関する指示文データに含まれる情報は他のユーザにとって役立たない場合や、個人情報保護の観点から望ましくない場合がある。本変形例によれば、そのような不都合が回避される。
(8)上述した実施形態においては、促し文データ取得手段127が促し文データを生成する際(図12のステップS106)、属性データの類似性に基づきログデータベースから抽出したログデータに示される指示文データのうち、処理識別データが共通するものをグループ化し、グループ毎のログデータの数をカウントし、その数が多いグループの指示文データ(代表的な指示文データ)を促し文データの生成に用いる。これは、促し文データ取得手段127が促し文データの生成に用いる指示文データを選択する方法の一具体例であって、他の様々な方法が採用され得る。
例えば、処理識別データが共通するものをグループ化する代わりに、指示文データが示す指示文に含まれるキーワードが共通するものをグループ化するなど、他の基準でグループ化が行われてもよい。また、促し文データの生成に用いる指示文データのグループの選択において、ログデータの数が多い順に所定数を選択する方法に代えて、例えば、ログデータの数が多い上位の所定数(例えば、第1位〜第5位)は除外し、それらに続いてログデータの数が多いグループ(例えば、第6位〜)の中から選択する構成としてもよい。この場合、例えば「今の天気は?」といった、多くのユーザにより頻繁に行われる音声指示ばかりが繰り返し促し文としてユーザに提示される、という不都合が回避される。また、促し文データ取得手段127が、過去の所定期間内に促し文データの生成に用いた指示文データは、新たな促し文データ(同じ端末装置11に対し送信されるもの)の生成には用いない構成としてもよい。この場合、同じユーザに同じ、もしくは類似の促し文が繰り返し提示される、という不都合が回避される。
(9)上述した実施形態において、サーバ装置12の促し文データ取得手段127は、ログデータベースから抽出したログデータに含まれる指示文データを用いて、促し文データを生成することにより促し文データを取得する。促し文データ取得手段127は、促し文データを生成せず、例えばメモリ201から読み出したり、外部の装置から受信したりすることにより、促し文データを取得する構成としてもよい。例えば、促し文データ取得手段127は、ログデータベースから、属性データの類似性に基づき抽出したログデータに含まれる指示文データを取り出し、取り出した指示文データをそのまま、促し文データとして取得する構成としてもよい。
(10)上述した実施形態においては、音声認識処理(図12のステップS115)および音声指示に応じた処理の特定処理(図12のステップS116およびS117)はサーバ装置12において行われる。これらの処理の両方または一方が、端末装置11において行われる構成としてもよい。
(11)上述した実施形態においては、ディスプレイ1041に例示される表示装置、タッチパネル1042に例示される入力デバイス、マイク105に例示される拾音装置は全て、端末装置11に内蔵される構成が採用されているが、これらのうちの1以上が端末装置11とは異なる外部の装置として構成されてもよい。また、上述した実施形態においては、端末装置11が利用する各種データは端末装置11に内蔵されるメモリ101に記憶される構成が採用されているが、それらのデータの全てまたは一部が外部の記憶装置に記憶される構成が採用されてもよい。同様に、サーバ装置12が利用する各種データの全てまたは一部が、メモリ201にではなく、外部の記憶装置に記憶される構成が採用されてもよい。
(12)上述した実施形態においては、端末装置11が音声指示の待機状態になったタイミングで端末識別データおよび位置データが端末装置11からサーバ装置12に送信され(図12のステップS102およびS103)、これらのデータの送信をトリガとして、促し文データの生成および送信の処理(図12のステップS104〜S108)が行われる。これらの処理が行われるタイミングは端末装置11が音声指示の待機状態になったタイミングに限られない。例えば、所定時間の経過毎や、端末装置11の所定距離以上の移動が検出されたタイミング等に、端末装置11からサーバ装置12に対する位置データの送信が行われてもよい。また、端末装置11において促し文の表示が必要となった時点(図12のステップS131;「Yes」)で端末装置11がサーバ装置12に対し促し文データの要求を送信し、その要求に応じて促し文データの生成および送信の処理(図12のステップS104〜S108)が行われてもよい。
(13)上述した実施形態または変形例において、端末装置11がサーバ装置12から促し文データを受信した後(図12のステップS108の後、または、図19のステップS119の後)、ユーザが促し文の表示(図12のステップS132、または、図19のS132)に応じて音声指示を行うまでの間に、端末装置11が促し文により促される処理の少なくとも一部をバックグラウンド処理として実行する構成としてもよい。
上述した実施形態を変形する場合、図12に示した処理のシーケンスにおいて、サーバ装置12は、ステップS106において、促し文データとともに、促し文データに応じた処理を識別する処理識別データを、例えばステップS105においてログデータベース(図9)から抽出したログデータの[処理識別データ]に格納されているデータに基づき特定する。そして、サーバ装置12は、ステップS107において、促し文データとともに、特定した処理識別データを端末装置11に送信する。端末装置11は、ステップS108において、促し文データとともに処理識別データを受信すると、ユーザによる音声指示を待つことなく、受信した処理識別データにより識別される処理をバックグラウンドで実行する。
上述した変形例(5)を変形する場合、図19に示した処理のシーケンスにおいて、サーバ装置12はステップS118において促し文データとともに処理識別データを送信し、端末装置11はステップS119において促し文データとともに処理識別データを受信する。従って、端末装置11は、ステップS119の処理の後、ユーザによる音声指示を待つことなく、受信した処理識別データにより識別される処理をバックグラウンドで実行する。
その後、ユーザが促し文に促されて、促し文に応じた音声指示を行った場合、端末装置11はバックグラウンドで実行済みの処理の結果を表示する。
この変形例によれば、ユーザが促し文に促されて音声指示を行う場合、その音声指示に従った処理が音声指示より前に実行済みであるため、その処理の結果がユーザに対し、より高速に提示される。
なお、ユーザは、必ずしも促し文と同じ音声指示を行うとは限らない。例えば、図11A〜11Dの例では、「近くのおいしいピザ屋を教えて」という例文を示す促し文に対し、ユーザは「じゃあ、近くのおいしいカレー屋を教えて」という音声指示を行っている。この場合、促し文に応じた処理と音声指示に応じた処理は、パラメータが異なるが機能が一致している。従って、この場合であっても、音声指示が行われる前にバックグラウンドで当該機能(図11A〜11Dの例では、機能「レストラン検索」)が起動していれば、処理の結果表示が速やかに行われる。
また、上記の変形例をさらに変形し、促し文に応じてユーザが音声指示を行った際、端末装置11がサーバ装置12にアクセスすることなく、音声指示に従った処理結果を表示する構成が採用されてもよい。この場合、端末装置11は促し文に促されてユーザにより行われる音声指示を認識するために、サーバ装置12が備える音声認識手段122および処理識別データ生成手段123と同様の構成部を備える。そして、端末装置11は、促し文に促されたユーザが音声指示を行った場合、音声データをサーバ装置12に送信することなく、端末装置11において音声データが示す音声の認識、指示文データの生成、処理識別データの生成(図12または図19のステップS115〜S117と同様の処理)を行う。そのように生成された処理識別データにより識別される処理(音声データに応じた処理)がバックグラウンドで実行されている処理と一致した場合、端末装置11は既に実行済みの処理の結果を速やかに表示する。
この変形例によれば、促し文に促されてユーザが音声指示を行った時点で、端末装置11がサーバ装置12と通信できない場合であっても、音声指示に従った処理の結果が端末装置11によりユーザに提示される。
(14)端末装置11がスピーカを備え、促し文をスピーカから発音する構成が採用されてもよい。この場合、端末装置11は、機能構成部として、促し文データが示す文を読み上げた音声を示す音声データを生成する音声データ生成手段と、音声データをスピーカに出力する音声データ出力手段を備える。音声データ出力手段は、表示指示手段114による促し文の表示指示と同時に、音声データをスピーカに出力する。その結果、ユーザに対し、促し文が表示とともに音声により提供される。
(15)上述した実施形態においては、端末装置11およびサーバ装置12は一般的なコンピュータに、本発明にかかるプログラムに従った処理を実行させることにより実現される構成が採用されている。これに代えて、端末装置11およびサーバ装置12の一方または両方が、いわゆる専用機として構成されてもよい。
本発明は、上述した音声エージェントシステムに例示されるシステム、当該システムを構成する端末装置およびサーバ装置、これらの装置が行なう処理の方法、コンピュータをこれらの装置として機能させるためのプログラム、当該プログラムをコンピュータ読取可能に持続的に記録した記録媒体、といった形態で把握される。なお、本発明にかかるプログラムは、記録媒体を介する他、インターネットなどのネットワークを介してコンピュータに提供されてもよい。

Claims (10)

  1. ユーザの属性または前記ユーザが置かれている環境の属性を示す属性データを取得する属性データ取得手段と、
    前記属性データが示す属性に応じた、前記ユーザに対し音声指示を促す文を示す促し文データを取得する促し文データ取得手段と、
    前記促し文データが示す文の表示を表示装置に指示する表示指示手段と、
    前記表示装置による前記促し文データが示す文の表示に応じて前記ユーザが発した音声を示す音声データを取得する音声データ取得手段と、
    前記音声データが表す指示に応じて複数の機能の中から特定された機能と当該機能を用いた処理を識別する処理識別データを取得する処理識別データ取得手段と、
    前記処理識別データにより識別される機能を用いた前記処理識別データにより識別される処理を実行する処理実行手段と
    を備える端末装置。
  2. 前記属性データおよび前記音声データをサーバ装置に送信する送信手段
    を備え、
    前記促し文データ取得手段は、前記送信手段による前記属性データの送信に対する応答として前記サーバ装置から送信されてくる前記促し文データを受信し、
    前記処理識別データ取得手段は、前記送信手段による前記音声データの送信に対する応答として前記サーバ装置から送信されてくる前記処理識別データを受信する
    請求項1に記載の端末装置。
  3. 前記送信手段は前記音声データが前記音声データ取得手段により取得されたときに前記表示装置により表示されていた文を示す前記促し文データを識別する促し文識別データを前記サーバ装置に送信し、
    前記処理識別データ取得手段は、前記音声データおよび前記促し文識別データの送信に対する応答として前記サーバ装置から送信されてくる、前記音声データが表す指示および前記促し文識別データにより識別される文の組み合わせに応じた処理を識別する前記処理識別データを受信する
    請求項2に記載の端末装置。
  4. 前記属性データ取得手段は、前記ユーザが発した音声を示す音声データを前記属性データとして取得する
    請求項1乃至3のいずれか1項に記載の端末装置。
  5. 端末装置のユーザの属性または前記ユーザが置かれている環境の属性を示す属性データを前記端末装置から受信する受信手段と、
    前記属性データが示す属性に応じた、前記ユーザに対し音声指示を促す文を示す促し文データを取得する促し文データ取得手段と、
    前記促し文データを前記端末装置に送信する送信手段と
    を備え、
    前記受信手段は前記送信手段による前記促し文データの送信の後に前記端末装置から送信されてくる音声データを受信し、
    前記音声データが表す指示を認識する音声認識手段と、
    前記指示に応じて複数の機能の中から特定された機能と当該機能を用いた処理を識別する処理識別データを生成する処理識別データ生成手段と
    を備え、
    前記送信手段は、前記受信手段により受信された前記音声データに対する応答として前記処理識別データを前記端末装置に送信する
    サーバ装置。
  6. 前記受信手段は、複数の端末装置の各々から前記属性データと前記音声データを受信し、
    前記受信手段が前記複数の端末装置のうちの各々の端末装置から受信した前記属性データと、前記受信手段が当該端末装置から受信した前記音声データが表す、前記音声認識手段により認識された指示を文として示す指示文データとを対応付けて記憶装置に記憶させる記憶指示手段と
    を備え、
    前記促し文データ取得手段は、前記複数の端末装置のうちの一の端末装置から前記受信手段が受信した属性データとの間で予め定められた関係を満たす属性データに対応付けて前記記憶装置に記憶されている指示文データを用いて、当該一の端末装置に対し前記送信手段により送信される促し文データを生成する
    請求項5に記載のサーバ装置。
  7. 前記記憶指示手段は、指示文データを、当該指示文データが示す指示が行われた時刻を示す時刻データと対応付けて前記記憶装置に記憶させ、
    前記促し文データ取得手段は、前記記憶装置に記憶されている複数の指示文データと当該複数の指示文データに対応付けて記憶されている時刻データとに基づき、時間の経過に伴い使用頻度が増加している指示を示す指示文データを特定し、当該特定した指示文データを用いて、前記送信手段により送信される促し文データを生成する
    請求項6に記載のサーバ装置。
  8. 前記記憶指示手段は、前記音声認識手段により音声データから生成された指示文データを、当該音声データの送信元の端末装置を識別する端末識別データと対応付けて前記記憶装置に記憶させ、
    前記促し文データ取得手段は、前記複数の端末装置のうちの一の端末装置に対し前記送信手段により送信される促し文データとして、当該一の端末装置を識別する端末識別データに対応付けて前記記憶装置に記憶されている指示文データが示す指示との間で予め定められた類似性を有しない指示を促す促し文データを生成する
    請求項6または7に記載のサーバ装置。
  9. 複数の処理の中の任意の2つの処理の関連性の高低を示す処理間関連性データを取得する処理間関連性データ取得手段
    を備え、
    前記受信手段は前記端末装置から送信されてくる音声データを前記属性データとして受信し、
    前記音声認識手段は前記属性データが表す指示を認識し、
    前記処理識別データ生成手段は前記属性データが表す指示に応じた処理を識別する処理識別データを生成し、
    前記促し文データ取得手段は、前記処理間関連性データが示す、前記属性データが表す指示に応じた処理との間の関連性の高低に基づき、前記複数の処理の中の一の処理を選択し、当該選択した一の処理の指示を促す文を示す促し文データを、前記属性データが示す属性に応じた促し文データとして取得する
    請求項5に記載のサーバ装置。
  10. コンピュータに、
    ユーザの属性または前記ユーザが置かれている環境の属性を示す属性データを取得するステップと、
    前記属性データが示す属性に応じた、前記ユーザに対し音声指示を促す文を示す促し文データを取得するステップと、
    前記促し文データが示す文の表示を表示装置に指示するステップと、
    前記表示装置による前記促し文データが示す文の表示に応じて前記ユーザが発した音声を示す音声データを取得するステップと、
    前記音声データが表す指示に応じて複数の機能の中から特定された機能と当該特定された機能を用いた処理を識別する処理識別データを取得するステップと、
    前記処理識別データにより識別される機能を用いた前記処理識別データにより識別される処理を実行するステップと
    を実行させるためのプログラム。
JP2015555870A 2014-01-06 2014-12-24 ユーザのデータ入力に応じて情報提供を行うための端末装置、プログラム、およびサーバ装置 Active JP6154489B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2014000415 2014-01-06
JP2014000415 2014-01-06
PCT/JP2014/084044 WO2015102082A1 (ja) 2014-01-06 2014-12-24 ユーザのデータ入力に応じて情報提供を行うための端末装置、プログラム、およびサーバ装置

Publications (2)

Publication Number Publication Date
JPWO2015102082A1 JPWO2015102082A1 (ja) 2017-03-23
JP6154489B2 true JP6154489B2 (ja) 2017-06-28

Family

ID=53493425

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015555870A Active JP6154489B2 (ja) 2014-01-06 2014-12-24 ユーザのデータ入力に応じて情報提供を行うための端末装置、プログラム、およびサーバ装置

Country Status (5)

Country Link
US (1) US20170004829A1 (ja)
EP (1) EP3093842B1 (ja)
JP (1) JP6154489B2 (ja)
CN (1) CN105874531B (ja)
WO (1) WO2015102082A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI736879B (zh) 2018-04-26 2021-08-21 日商三菱綜合材料股份有限公司 α射線測定裝置

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6585733B2 (ja) * 2015-11-17 2019-10-02 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置
US9978367B2 (en) * 2016-03-16 2018-05-22 Google Llc Determining dialog states for language models
US20200342870A1 (en) * 2017-11-28 2020-10-29 Sony Corporation Information processing device and information processing method
JP2019101264A (ja) * 2017-12-04 2019-06-24 シャープ株式会社 外部制御装置、音声対話型制御システム、制御方法、およびプログラム
CN111312253A (zh) * 2018-12-11 2020-06-19 青岛海尔洗衣机有限公司 语音控制方法、云端服务器及终端设备
CN110138959B (zh) * 2019-04-10 2022-02-15 荣耀终端有限公司 显示人机交互指令的提示的方法及电子设备
CN110215707B (zh) * 2019-07-12 2023-05-05 网易(杭州)网络有限公司 游戏中语音交互的方法及装置、电子设备、存储介质

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7263489B2 (en) * 1998-12-01 2007-08-28 Nuance Communications, Inc. Detection of characteristics of human-machine interactions for dialog customization and analysis
GB9926134D0 (en) * 1999-11-05 2000-01-12 Ibm Interactive voice response system
US6665640B1 (en) * 1999-11-12 2003-12-16 Phoenix Solutions, Inc. Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries
US8645122B1 (en) * 2002-12-19 2014-02-04 At&T Intellectual Property Ii, L.P. Method of handling frequently asked questions in a natural language dialog service
CA2618623C (en) * 2005-08-09 2015-01-06 Mobilevoicecontrol, Inc. Control center for a voice controlled wireless communication device system
CN101601263B (zh) * 2007-02-06 2013-06-19 日本电气株式会社 定制蜂窝电话的设备及方法
CN101661474B (zh) * 2008-08-26 2012-07-04 华为技术有限公司 一种搜索方法和系统
JP5455355B2 (ja) * 2008-11-27 2014-03-26 トヨタ自動車株式会社 音声認識装置及びプログラム
JP5452067B2 (ja) * 2009-04-27 2014-03-26 三菱電機株式会社 エレベータ呼び登録装置
US9858925B2 (en) * 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10540976B2 (en) * 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US8275384B2 (en) * 2010-03-20 2012-09-25 International Business Machines Corporation Social recommender system for generating dialogues based on similar prior dialogues from a group of users
US8401853B2 (en) * 2010-09-22 2013-03-19 At&T Intellectual Property I, L.P. System and method for enhancing voice-enabled search based on automated demographic identification
TWI480742B (zh) * 2011-03-18 2015-04-11 Ind Tech Res Inst 基於動態語言模型之推薦方法與推薦系統
EP3392876A1 (en) * 2011-09-30 2018-10-24 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
CN102722539A (zh) * 2012-05-23 2012-10-10 华为技术有限公司 一种基于语音识别的查询方法及装置
US9251792B2 (en) * 2012-06-15 2016-02-02 Sri International Multi-sample conversational voice verification
US8543834B1 (en) * 2012-09-10 2013-09-24 Google Inc. Voice authentication and command
CN103365959A (zh) * 2013-06-03 2013-10-23 深圳市爱渡飞科技有限公司 一种语音搜索方法及装置
US8849675B1 (en) * 2013-12-18 2014-09-30 Google Inc. Suggested query constructor for voice actions
US9082407B1 (en) * 2014-04-15 2015-07-14 Google Inc. Systems and methods for providing prompts for voice commands
US9633659B1 (en) * 2016-01-20 2017-04-25 Motorola Mobility Llc Method and apparatus for voice enrolling an electronic computing device
US9818406B1 (en) * 2016-06-23 2017-11-14 Intuit Inc. Adjusting user experience based on paralinguistic information

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI736879B (zh) 2018-04-26 2021-08-21 日商三菱綜合材料股份有限公司 α射線測定裝置

Also Published As

Publication number Publication date
EP3093842B1 (en) 2023-06-07
CN105874531A (zh) 2016-08-17
WO2015102082A1 (ja) 2015-07-09
US20170004829A1 (en) 2017-01-05
JPWO2015102082A1 (ja) 2017-03-23
EP3093842A1 (en) 2016-11-16
EP3093842A4 (en) 2017-07-26
CN105874531B (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
JP6154489B2 (ja) ユーザのデータ入力に応じて情報提供を行うための端末装置、プログラム、およびサーバ装置
AU2021286360B2 (en) Systems and methods for integrating third party services with a digital assistant
JP6942841B2 (ja) ダイアログ・システムにおけるパラメータ収集および自動ダイアログ生成
CN111104496B (zh) 从先前会话检索情境
US20190057697A1 (en) Better resolution when referencing to concepts
US9361063B2 (en) Function execution instruction system, function execution instruction method, and function execution instruction program
RU2637874C2 (ru) Генерирование диалоговых рекомендаций для чатовых информационных систем
US20150348533A1 (en) Domain specific language for encoding assistant dialog
US20150331665A1 (en) Information provision method using voice recognition function and control method for device
JP6162009B2 (ja) ユーザのデータ入力に応じて情報提供を行うためのサーバ装置、プログラム、システムおよび方法
JP2019503526A5 (ja)
JP2014134675A (ja) 機能実行システム及び発話例出力方法
KR20130108173A (ko) 유무선 통신 네트워크를 이용한 음성인식 질의응답 시스템 및 그 운용방법
KR20130086971A (ko) 음성인식 질의응답 시스템 및 그것의 운용방법
JP5231514B2 (ja) 行動支援情報提供装置、方法、及びプログラム
JP6179971B2 (ja) 情報提供装置及び情報提供方法
JP6110264B2 (ja) ユーザのデータ入力に応じて情報提供を行うためのサーバ装置、プログラム、システムおよび方法
KR20140088345A (ko) 로그 데이터를 이용한 검색 서비스 제공 방법 및 장치
JP2015114527A (ja) ユーザのデータ入力に応じて情報提供を行うための端末装置、プログラム、記録媒体および方法
WO2017028635A1 (zh) 一种信息处理系统、方法、电子设备和计算机存储介质
JP2011113116A (ja) 情報提供装置
JP2017151931A (ja) 対話決定システム、対話決定方法、対話決定プログラム、及び端末装置
JP6240565B2 (ja) 対象文章を象徴する簡易文を、位置名称に応じて推定するプログラム、装置及びサーバ
JP6018133B2 (ja) 情報検索装置、情報検索プログラム、および情報検索システム
JP2021157617A (ja) 情報提供プログラム、情報提供方法および情報処理装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170428

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170516

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170601

R150 Certificate of patent or registration of utility model

Ref document number: 6154489

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250