JP7334420B2 - 情報処理装置及びプログラム - Google Patents

情報処理装置及びプログラム Download PDF

Info

Publication number
JP7334420B2
JP7334420B2 JP2019029284A JP2019029284A JP7334420B2 JP 7334420 B2 JP7334420 B2 JP 7334420B2 JP 2019029284 A JP2019029284 A JP 2019029284A JP 2019029284 A JP2019029284 A JP 2019029284A JP 7334420 B2 JP7334420 B2 JP 7334420B2
Authority
JP
Japan
Prior art keywords
information
list
voice
unit
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019029284A
Other languages
English (en)
Other versions
JP2020134745A (ja
Inventor
秀晴 岩下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2019029284A priority Critical patent/JP7334420B2/ja
Priority to US16/548,179 priority patent/US20200273462A1/en
Publication of JP2020134745A publication Critical patent/JP2020134745A/ja
Application granted granted Critical
Publication of JP7334420B2 publication Critical patent/JP7334420B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/0035User-machine interface; Control console
    • H04N1/00352Input means
    • H04N1/00403Voice input means, e.g. voice commands
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/0077Types of the still picture apparatus
    • H04N2201/0094Multifunctional device, i.e. a device capable of all of reading, reproducing, copying, facsimile transception, file transception

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Facsimiles In General (AREA)

Description

本発明は、情報処理装置及びプログラムに関する。
近年、音声入力により項目の設定を行う情報処理装置が提案されている(例えば、特許文献1参照。)。
特許文献1に記載された情報処理装置は、音声による設定を可能とする音声認識装置であって、音声による設定指示を受信する受信手段と、前記音声による設定指示の内容を認識し解釈して、該解釈結果の候補を含む第1の構造化データを生成する音声解釈手段と、ユーザによる設定指示入力を検知する指示入力検知手段と、前記設定指示入力の内容を解釈して第2の構造化データを生成する指示入力解釈手段と、前記第2の構造化データに基づいて、前記第1の構造化データに含まれる解釈候補から一つを選択する選択手段と、を備えている。
特開2007-127813号公報
音声により入力された一連の内容のうち一部が不明な場合、当該一連の内容の全部を再び入力することが必要となる場合がある。
本発明の課題は、音声により入力された一連の内容のうち一部が不明な場合に、当該一連の内容の全部を再び入力しなくとも意図した処理を実行することが可能な情報処理装置及びプログラムを提供することにある。
[1]入力された音声を示す音声情報を受け付ける音声受付手段と、
受け付けられた前記音声情報を解析して前記音声情報を一定の単位ごとに区切る音声解析手段と、
区切られた前記単位に含まれる特定の単語が予め定められた一覧に含まれない場合に、該単位に係る音声情報の入力を案内する案内情報を出力する案内出力手段と、
前記特定の単語が前記予め定められた一覧に含まれない場合に、前記特定の単語を含む単位を一時的に記憶部に登録する登録手段と、を備え、
前記予め定められた一覧を第1の一覧とし、
前記第1の一覧に含まれる単語と、該単語との類似の度合いを示す指標が第1の値以上となる第1の単語と、を含むものを第2の一覧とし、
前記第1の単語と、前記指標が前記第1の値未満であって、かつ、第2の値以上となる第2の単語と、を含むものを第3の一覧とした場合に、
前記案内出力手段は、前記記憶部に登録された前記単位に含まれる特定の単語が、前記第2の一覧又は前記第3の一覧に含まれる場合に、前記案内情報を出力する、
情報処理装置。
]前記単位に含まれる特定の単語が前記予め定められた一覧に含まれない場合に、前記予め定められた一覧を表示するよう制御する表示制御手段をさらに備える、
前記[]に記載の情報処理装置。
]前記表示制御手段は、予め定められた優先順序に応じて前記予め定められた一覧を表示するよう制御する、
前記[]に記載の情報処理装置。
]前記表示制御手段は、前記単位に含まれる特定の単語が前記予め定められた一覧に含まれない場合に、予め定められた規則に応じて自装置に備えられた機能を起動する操作子を選択して表示するよう制御する、
前記[]に記載の情報処理装置。
]コンピュータを
入力された音声を示す音声情報を受け付ける音声受付手段と、
受け付けられた前記音声情報を解析して前記音声情報を一定の単位ごとに区切る音声解析手段と、
区切られた前記単位に含まれる特定の単語が予め定められた一覧に含まれない場合に、該単位に係る音声情報の入力を案内する案内情報を出力する案内出力手段と、
前記特定の単語が前記予め定められた一覧に含まれない場合に、前記特定の単語を含む単位を一時的に記憶部に登録する登録手段として機能させるためのプログラムであって、
前記予め定められた一覧を第1の一覧とし、
前記第1の一覧に含まれる単語と、該単語との類似の度合いを示す指標が第1の値以上となる第1の単語と、を含むものを第2の一覧とし、
前記第1の単語と、前記指標が前記第1の値未満であって、かつ、第2の値以上となる第2の単語と、を含むものを第3の一覧とした場合に、
前記案内出力手段は、前記記憶部に登録された前記単位に含まれる特定の単語が、前記第2の一覧又は前記第3の一覧に含まれる場合に、前記案内情報を出力する、
プログラム。
請求項1からに係る発明によれば、音声により入力された一連の内容のうち一部が不明な場合に、当該一連の内容の全部を再び入力しなくとも意図した処理を実行することができる。
図1は、本発明の実施の形態に係る情報処理装置の制御系の一例を示すブロック図である。 図2は、図1に示す情報処理装置の動作の一例の概要を示す模式図である。 図3は、音声解析処理の動作の一例を示すフローチャートである。 図4は、発話の再入力を案内する動作の一例を示すフローチャートである。 図5は、図1に示す情報処理装置の動作の一例の概要を示す模式図である。 図6は、音声解析処理の動作の一例を示すフローチャートである。 図7は、発話の再入力を案内する動作の一例を示すフローチャートである。 図8は、図1に示す情報処理装置の動作の一例の概要を示す模式図である。 図9は、発話の再入力を案内する動作の一例を示すフローチャートである。 図10は、変形例に係る情報処理装置の制御系の一例を示すブロック図である。
以下、本発明の実施の形態について図面を参照して説明する。なお、各図中、実質的に同一の機能を有する構成要素については、同一の符号を付してその重複した説明を省略する。以下、情報処理装置として、例えば、スキャン機能、プリンタ機能、コピー機能、ファクシミリ機能、電子メール機能等の複数の機能を有する画像形成装置(具体的には、複合機)を例に説明するが、情報処理装置は複合機に限られない。
[実施の形態]
図1は、本発明の実施の形態に係る情報処理装置1の制御系の一例を示すブロック図である。この情報処理装置1は、各部を制御する制御部10と、各種のデータを記憶する記憶部11と、情報の入力及び表示を行う操作表示部12と、原稿から原稿画像を読み取る画像読取部14と、画像を印刷出力する画像出力部15と、音声入出力装置2(詳細は、後述する)との間でネットワーク3を介して通信するネットワーク通信部16と、外部ファクシミリ装置4に対して公衆回線網5を介してファクシミリ送受信を行うファクシミリ通信部17と、を備える。なお、情報処理装置1、音声入出力装置2、外部ファクシミリ装置4、ネットワーク3及び公衆回線網5を含む構成を「情報処理システム」ともいう。
制御部10は、CPU(Central Processing Unit)、インターフェース等から構成されている。CPUは、記憶部11に記憶されたプログラム110に従って動作することにより、受付手段100、分割手段101、判定手段102、起動手段103、設定手段104、登録手段105、取出手段106、案内出力手段107、実行手段108、表示制御手段109等として機能する。受付手段100は、音声受付手段の一例である。各手段100~109の詳細については後述する。
記憶部11は、ROM(Read Only Memory)、RAM(Random Access Memory)、ハードディスク等から構成され、プログラム110や、照会情報111、ワードスタック情報113、設定情報114、画面情報115等の各種データを記憶する。照会情報111は、予め定められた一覧の一例である。
照会情報111は、操作者(以下、「ユーザ」ともいう。)により入力された指示情報から、当該情報処理装置1で実行することが可能な機能(以下、「サービス」ともいう。)や、当該サービスを実行するための設定される項目(以下、「設定項目」又は「オプション」ともいう。)を照会するために参照される情報である。
照会情報111は、例えば、情報処理装置1に備わっているサービスを識別する情報の一例としてのサービスの名称(以下、単に「サービス名」ともいう。)を一覧として記録したサービス情報111Aと、オプションを識別する情報の一例としてのオプションの名称(以下、単に「オプション名」ともいう。)をサービス名と対応付けて記録したオプション情報111Bと、オプションに対して設定することが可能な値(以下、「設定値」又は「パラメータ」ともいう。)に係る情報を記録したパラメータ情報111Cと、を含む。サービス情報111A及びオプション情報111Bは、第1の一覧の一例である。
ここで、パラメータ情報111Cには、一の設定項目に設定することが可能なパラメータそのもの(例えば、「カラーモード」という設定項目に対して、原稿の状態に応じて自動で白黒かカラーかを選択させる「オート」、白黒での印刷を指示する「モノクロ」、全色での印刷を指示する「フルカラー」等のパラメータ)や、パラメータの種類(例えば、「部数」という設定項目に対して、一定の範囲の自然数(数字)等、パラメータの種類)が含まれる。
サービス情報111A、オプション情報111B及びパラメータ情報111Cは、例えば、以下のテーブルにより互いに関連付けられて記録されていてもよい。
Figure 0007334420000001
また、照会情報111は、上述したサービス名やオプション名と類似する単語(以下、「単語」は、単に「ワード」ともいう。)を記録した類似情報111D、及び上述したサービス名やオプション名から連想できるワードを記録した連想情報111Eをさらに含んでもよい。また、これら類似するワードや連想できるワードは、それぞれに対応するサービス名やオプション名と関連付けて記録してもよい。
ここで、「類似」とは、称呼の一部に異なるものが含まれるが互いに同一の意味を有する関係にあるものをいう。具体的には、「類似」とは、サービス名やオプション名との類似の度合いを示す指標が一定の値(以下、「第1の値」ともいう。)以上となるものをいう。一例として、「類似」には、オプション名としての「カラーモード」に対する「カラー設定」等の関係にあるものが含まれる。
「連想」とは、称呼が異なるが互いに同一の意味を有する関係にあるものをいう。具体的には、「連想」とは、上記の指標、すなわち、サービス名やオプション名との類似の度合いを示す指標が、上述の第1の値未満であり、かつ、第2の値以上となるものをいう。一例として、「連想」には、オプション名としての「カラーモード」に対して「色を変えたい」や、オプション名としての「コピー」に対して「印刷」等の関係にあるものが該当する。
サービス名に類似するワード及びオプション名に類似するワードは、第1の単語の一例である。類似情報111Dは、第2の一覧の一例である。サービス名から連想できるワード及びオプション名から連想できるワードは、第2の単語の一例である。連想情報111Eは、第3の一覧の一例である。
ワードスタック情報は113、後述するセンテンスを構成する文字列を一時的に登録した情報である。設定情報114は、設定されたパラメータを記録した情報であり、後述する実行手段108によりサービスが実行される際に参照される情報である。
画面情報115は、後述する表示制御手段109により操作表示部12の表示面(不図示)に表示される各種画面の情報である。画面には、例えば、案内画面9(図2参照)や、ホーム画面7A,7B(図5参照)、設定画面8(図5参照)等が含まれる。
操作表示部12は、例えば、タッチパネルディスプレイであり、液晶ディスプレイ等のディスプレイにタッチパネルを重合配置した構成を有する。画像読取部14は、原稿から原稿画像を読み取るものであり、原稿台(不図示)上に設けられた自動原稿送り装置(不図示)と、スキャナとを備え、原稿台に配置された原稿、又は自動原稿送り装置(不図示)により送られた原稿から原稿画像を光学的に読み取る。
画像出力部15は、例えば、電子写真方式、インクジェット方式等によりカラー画像又は白黒画像を用紙等の記録媒体に印刷出力する。ネットワーク通信部16は、NIC(Network Interface Card)等によって実現され、ネットワーク3を介して外部装置との間で信号を送受信する。
ファクシミリ通信部17は、G3、G4等のファクシミリプロトコルに従ってデータの変復調を行い、公衆回線網5を介してファクシミリ通信を行う。
次に、制御部10を構成する各手段の詳細について説明する。受付手段100は、音声入出力装置2から入力される音声に係る情報(以下、単に「音声情報」ともいう。)を受け付ける。この音声情報には、機能の実行を指示する指示情報等が含まれる。
分割手段101は、音声情報を解析して、当該音声情報に含まれる一連の内容を文節(以下、「センテンス」ともいう。)ごとに分割する。センテンスとは、一連の内容を構成する部分的な要素であって、特定の意味を有する一定の単位をいう。
センテンスには、例えば、単語や形態素等の主たる要素とその前後の助詞や助動詞とを含んで一定の長さに区切られた部分が該当する。一連の内容は、例えば、文や文章としての体裁を有する形式で与えられてもよく、サービス名、オプション名、パラメータ等の主な要素を文又は文章から抜き出して羅列した条項としの体裁を有する形式で与えられてもよい。
判定手段102は、センテンスごとに予め定められた条件を満たすか否かを判定する。具体的には、判定手段102は、センテンスが照会情報111に含まれるものであるか否かを判定する。より具体的には、判定手段102は、照会情報111に記録されたワードの中に、センテンスを構成する文字列に含まれる特定のワードと一致するワードが存在するか否かを判定する。
起動手段103は、上述した、スキャン、プリンタ、コピー、ファクシミリ、電子メール等に係る各種のサービスを起動する。設定手段104は、サービスの実行に必要なパラメータを設定する。具体的には、設定手段104は、記憶部11の設定情報114にパラメータを記録する。
登録手段105は、センテンスを構成する文字列をワードスタック情報113に登録する。取出手段106は、ワードスタック情報113に記録されたワードを取り出すとともに、ワードスタック情報113から取り出した当該ワードを削除する。
案内出力手段107は、上述した予め定められた条件を満たさないセンテンスに係る音声情報を再びユーザに入力するよう案内する案内情報を出力する。案内出力手段107は、音声により案内情報を出力してもよく、画面や文字によって案内情報を出力してもよい。
なお、音声により案内情報を出力する場合は、案内出力手段107は、ネットワーク3を介して、出力するべき音声情報を音声入出力装置2に送信する。画面や文字によって案内情報を出力する場合は、後述する表示制御手段109に当該案内情報を表示するよう指示する。
実行手段108は、画像読取部14、画像出力部15、ファクシミリ通信部17等を制御して各種のサービスを実行する。表示制御手段109は、操作表示部12の表示面に画面を表示するよう制御する。
(音声入出力装置2の構成)
音声入出力装置2は、音声の入力及び出力を行う。音声入出力装置2は、例えば、スマートスピーカーである。音声入出力装置2は、入力される音を検知する音検知手段21と、検知された音の情報を処理して音声情報を抽出する音声処理手段22と、音声を出力する音声出力手段23と、を備える。なお、音声入出力装置2は、音声入力装置と音声出装置とを別体として設けてもよい。
(ネットワーク3)
ネットワーク3は、例えば、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、インターネット、イントラネット等であり、有線でも無線でもよい。
(実施の形態の動作)
次に、本実施の形態に係る情報処理装置1の動作について説明する。以下の説明では、下記の3つの事例を例に挙げそれぞれ説明する。
(1)パラメータに係る音声の指示が不明な場合、
(2)サービス又はオプションに係る音声の指示が不明な場合、及び
(3)上記(1)及び(2)の変形例。
ここで、「音声の指示が不明」とは、ユーザの発話の内容が情報処理装置1に認識されなかったことをいう。「音声の指示が不明」な場合には、例えば、発話の全部又は一部が音声入出力装置2により検知されなかった場合や、発話自体が検知されたとしても内容の解析ができなかった場合(例えば、発話を構成する単語が予め定められた辞書情報に含まれていない場合)等が含まれる。なお、以下、音声により指示情報が入力されるものとして説明するが、例えば、キーボードからの文字の入力等音声以外の方法で入力されてもよい。
(1)パラメータに係る音声の指示が不明な場合
図2は、図1に示す情報処理装置1の動作の一例の概要を示す模式図である。以下、一例として、一のサービスのコピー機能の実行が指示された場面を例に挙げて説明する。具体的には、ユーザから、「コピーを2部、カラーモードは・・」との発話によって指示が入力された場合を例に挙げて説明する。なお、「・・」は、発話の内容が不明であること示す。以下「・・」と記載した場合は、同様の意味を有するものとする。
図2に示すように、ユーザが情報処理装置1に対して音声により指示情報を入力すると(S10)、該情報処理装置1に接続された音声入出力装置2の音検知手段21は、音声を検知し、音声処理手段22は、検知された音声を処理して音声情報を情報処理装置1に送信する。情報処理装置1は、音声情報を受け付ける(S11)。
情報処理装置1は、受け付けた音声情報を解析して音声情報に含まれる指示の内容を抽出して、当該指示に応じてサービスを起動し、オプションにパラメータを設定し、サービスを実行するようになっている。具体的には、音声情報に含まれる指示に応じて、起動手段103がサービスを起動し、設定手段104がパラメータを設定し、実行手段108がサービスを実行するようになっている。
このとき、解析された音声情報の中に不明な内容が含まれることによってオプションにパラメータを設定することができない場合、情報処理装置1は、案内画面9を出力する(S12)。
案内画面9は、ユーザに対して、入力された音声情報の少なくとも一部に不明な内容が含まれていたことを通知するとともに、当該不明な内容について再び入力するよう案内する画面である。案内画面9には、例えば、入力が可能なパラメータ、すなわち、情報処理装置1が受け付けすることが可能なパラメータを通知する第1のメッセージ91と、音声の再度の入力(以下、単に「再入力」ともいう。)として再度の発話をユーザに促すとともに、入力の具体例を例示する例示文920を含む第2のメッセージ92とを含む。案内画面9は、案内情報の一例である。
ユーザが不明な内容を再入力すると、情報処理装置1は、再入力に係る音声情報を解析して、サービスを起動し、オプションにパラメータを設定するとともに、サービスを実行する(S11)。
次に、図3及び図4を参照して、図2に示す動作を具体的に説明する。以下の説明では、動作を、(1-1)発話の解析及びパラメータの設定(以下、まとめて「音声解析処理」ともいう。)の動作、及び(1-2)パラメータの再入力を案内する動作に分けて説明する。以下、説明の便宜上、上述した音声入出力装置2で行われる処理については詳細の記載は省略する。また、この事例は、音声の指示によりサービスが適切に起動した場合を前提に説明する。
(1-1)音声解析処理の動作
図3は、音声解析処理の動作の一例を示すフローチャートである。図3に示すように、情報処理装置1の受付手段100は、音声入出力装置2から送信された音声情報を受け付ける(S110)。
次に、分割手段101は、音声情報を解析して文節(すなわち、センテンス)に分割する(S111)。一例として、上述の発話の場合、分割手段101は、「コピーを2部、カラーモードは・・」との発話を、「コピーを2部」との第1のセンテンスと、「カラーモードは・・」との第2のセンテンスとに分割する。
判定手段102は、センテンスが当該情報処理装置1で提供されているオプション(以下、単に「提供オプション」ともいう。)に該当するか否かを判定する(S112)。具体的には、判定手段102は、センテンスを記憶部11に記憶された照会情報111と照合して、当該センテンスを構成する文字列に、照会情報111のオプション情報111Bやパラメータ情報111Cに記録されたワードが含まれるか否かを判定する。
センテンスが提供オプションに該当する場合(S112、Yes)、設定手段104は、パラメータを設定する(S113)。一例として、設定手段104は、「コピーを2部」との第1のセンテンスに応じて、コピー機能の一項目である「部数」に、「2」との値を設定する。
センテンスが提供オプションに該当しない場合(S112、No)、登録手段105は、当該センテンスを構成する文字列をワードスタック情報113に登録する(S114)。一例として、上述の例では、登録手段105は、第2のセンテンスの「カラーモードは・・」との文字列をワードスタック情報113に登録する。
上述したセンテンスを照会情報111と照合してパラメータを抽出して設定するステップ(ステップS112からS114)は、最初の文節から最後の文節(上述の例では、第2のセンテンス)に亘って(S115)、文節ごとに順に実行される。
(1-2)パラメータの再入力を案内する動作
図4は、発話の再入力を案内する動作の一例を示すフローチャートである。図4に示すように、ワードスタック情報113(以下、単に「スタック113」ともいう。)に何らかのワードが記録されている場合、すなわち、ワードがある場合(S120:Yes)、取出手段106は、スタック113からワードを取出して(S121)、取り出したワードをスタック113から削除する。
判定手段102は、取り出されたワードを記憶部11に記憶された類似情報111Dと照合して、取り出されたワードと類似したオプションがあるか否かを判定する(S122)。具体的には、判定手段102は、取り出されたワード内にオプション名と類似したワードが含まれるか否かを判定する。
類似したオプションがある場合(S122:Yes)、案内出力手段107は、案内情報を出力する(S124)。具体的には、上述したように、案内出力手段107は、案内画面9を操作表示部12の表示面に出力する。なお、案内出力手段107は、音声により案内情報を出力してもよい。
類似したオプションがない場合(S122:No)、判定手段102は、取り出されたワードを記憶部11に記憶された連想情報111Eと照合して、取り出されたワードから連想できるオプションがあるか否かを判定する(S123)。具体的には、判定手段102は、取り出されたワード内にオプション名から連想できるワードが含まれるか否かを判定する。
連想できるオプションがある場合(S123:Yes)、案内出力手段107は、案内情報を出力する(S124)。連想できるオプションがない場合(S123:No)、スタック113に登録されている次のワードに対してステップS121からS124の動作が実行される。なお、このステップS121からS124の動作は、スタック113にワードが登録されている間、登録されている順に順次実行される。
案内情報に応じてユーザから音声によりパラメータが入力された場合(以下、単に「音声入力」ともいう。S125:Yes)、図3で説明した音声解析処理が実行される(S126)。操作表示部12の操作部(不図示)からパラメータが入力された場合(以下、単に「UI入力」ともいう。S127:Yes)、設定手段104は、入力されたパラメータを設定する(S128)。
一定の時間、音声入力及びUI入力がともに行われない場合、すなわち、タイムアウトした場合(S129:Yes)、設定手段104は、初期値、すなわち、予め定められたパラメータを設定する(S130)。このような場合、例えば、設定手段104は、「カラーモード」について一律に「モノクロ」と設定する。実行手段108は、設定されたパラメータを用いてサービスを実行する(S131)。
(2)サービス又はオプションに係る音声の指示が不明な場合
図5は、図1に示す情報処理装置1の動作の一例の概要を示す模式図である。図5に示すように、初めのステップS20及びS21は、上述した図2に示したステップS10及びS11と同様に動作する。すなわち、ユーザが情報処理装置1に対して音声により指示情報を入力すると(S20)、情報処理装置1は、音声情報を受け付ける(S21)。
表示制御手段109は、操作表示部12の表示面に、ホーム画面7Aを表示するよう制御する(S22)。ホーム画面7Aには、サービスを起動するアイコン70Aが含まれる。ここで、「アイコン」とは、機能を図形で表したものをいうが、文字や記号を含んでもよく、文字や記号のみで構成されたものでもよい。アイコンは、操作子の一例である。
起動手段103は、音声情報に含まれるサービスの起動を指示する情報に応じてサービスを起動するようになっている。このとき、サービス名が不明な場合、サービスは、起動されない。この場合、表示制御手段109は、アイコン70Aを変えてホーム画面7Bを表示するよう制御する(S23)。具体的には、表示制御手段109は、音声入力に応じて選択が可能なサービスを抽出し、抽出されたサービスに係るアイコン70Bを含むホーム画面7Bを構成して表示するよう制御する。
起動手段103によりサービスが起動された場合、表示制御手段109は、操作表示部12の表示面に、オプションの設定を行う設定画面8を表示するよう制御する(S24)。
なお、図5では、一例として、コピーの各種の設定を行う画面を示した。この設定画面8は、例えば、「カラーモード」の設定を行うカラーモード選択釦81、部数を指定するテンキー82等が含まれる。
該当するオプションが無い場合、表示制御手段109は、オプションの一覧を示す一覧画面80を表示するよう制御する(S25)。一覧画面80には、起動したサービスに対応するオプション名を示す第1の文字列801と、各オプションに設定されたパラメータを示す第2の文字列802とを対応付けて表示する表示欄が含まれる。
また、表示制御手段109は、予め定められた優先順序に応じてオプション名を並べて表示するよう制御してもよい。例えば、表示制御手段109は、項目の設定の頻度を示す頻度情報や、設定される可能性の高さを示す確率情報(例えば、音声情報に数字が含まれている場合に、数字が設定され得る項目)等に応じてオプション名を並べて表示するよう制御してもよい。
次に、図6及び図7を参照して、図5に示す動作を、(2-1)音声解析処理、及び(2-2)サービス又はオプションの再入力を案内する動作に分けてそれぞれを具体的に説明する。なお、上述した図3及び図4に記載した動作と実質的に同一の動作については、概略のみ示して詳細な説明は省略する。
(2-1)音声解析処理
図6は、音声解析処理の動作の一例を示すフローチャートである。図6に示すように、受付手段100は、音声入出力装置2から送信された音声情報を受け付け(S210)、分割手段101は、音声情報を解析して文節に分割する(S211)。
特定のサービスが起動済みの場合(S212:Yes)、判定手段102は、センテンスが提供オプションに該当するか否かを判定する(S213)。
センテンスが提供オプションに該当する場合(S213、Yes)、設定手段104は、パラメータを設定し(S216)、センテンスが提供オプションに該当しない場合(S213、No)、登録手段105は、当該センテンスをワードとしてワードスタック情報113に登録する(S217)。
特定のサービスが起動済みでない場合(S212:No)、判定手段102は、センテンスが当該情報処理装置1で提供されているサービス(以下、単に「提供サービス」ともいう。)に該当するか否かを判定する(S214)。提供サービスは、換言すれば、当該情報処理装置1に備えられた機能である。
具体的には、判定手段102は、センテンスを記憶部11に記憶された照会情報111と照合して、センテンスが照会情報111のサービス情報111Aに含まれるか否かを判定する。
センテンスが提供サービスに該当する場合(S214、Yes)、起動手段103は、当該サービスを起動する(S215)。センテンスが提供サービスに該当しない場合(S214、No)、登録手段105は、当該センテンスをワードとしてワードスタック情報113に登録する(S217)。これらのステップ(ステップS212からS217)は、最初の文節から最後の文節に亘って(S218)、文節ごとに順に実行される。
(2-2)サービス又はオプションの再入力を案内する動作
図7は、発話の再入力を案内する動作の一例を示すフローチャートである。図7に示すように、スタック113にワードがある場合(S220:Yes)、取出手段106は、スタック113からワードを取出して(S221)、スタック113から削除する。
判定手段102は、取り出されたワードを記憶部11に記憶された類似情報111Dと照合して、取り出されたワードと類似したサービス又は類似したオプションがあるか否かを判定する(S222)。
類似したサービス又は類似したオプションがある場合(S222:Yes)、表示制御手段109は、当該サービス又はオプションの候補を抽出して(S224)、抽出した候補を表示するよう制御する(S225)。
類似したサービス又は類似したオプションがない場合(S222:No)、判定手段102は、取り出されたワードを記憶部11に記憶された連想情報111Eと照合して、取り出されたワードから連想できるサービス又は連想できるオプションがあるか否かを判定する(S223)。
連想できるサービス又は連想できるオプションがある場合(S223:Yes)、表示制御手段109は、当該サービス又はオプションの候補を抽出して(S224)、抽出した候補を表示するよう制御する(S225)。
連想できるオプションがない場合(S223:No)、スタック113に登録されている次のワードに対してステップS221からS225の動作が実行される。なお、このステップS221からS225の動作は、スタック113にワードが登録されている間、登録されている順に順次実行される。
以下、ステップS226からS232は、上述したステップS125からS131と同様に動作する。すなわち、案内情報に応じてユーザからパラメータが音声入力された場合(S226:Yes)、図6で説明した音声解析処理が実行され(S227)、パラメータがUI入力された場合(S228:Yes)、設定手段104は、入力されたパラメータを設定する(S229)。
一定の時間、音声入力及びUI入力がともに行われない場合(S230:Yes)、設定手段104は、予め定められたパラメータを設定する(S231)。実行手段108は、設定されたパラメータを用いてサービスを実行する(S232)。
(3)パラメータに係る音声の指示が不明な場合
図8は、図1に示す情報処理装置1の動作の一例の概要を示す模式図である。図8に示すように、初めのステップS30及びS31は、上述した図2に示したステップS10及びS11と同様に動作する。すなわち、ユーザが情報処理装置1に対して音声により指示情報を入力すると(S30)、情報処理装置1は、音声情報を受け付ける(S31)。
音声情報に含まれる情報のうちサービスの起動を示す情報と、オプションを指定する情報とが適切に認識され、パラメータを指定する情報のみが不明の場合、表示制御手段109は、設定画面8とともにパラメータを選択する選択画面83を表示するよう制御してもよい(S32)。選択画面83には、設定することが可能なパラメータを示す第3の文字列830の一覧が表示される。図8に示すように、選択画面83は、設定画面8上にポップアップの形式で表示してもよい。
(3-1)音声解析処理
音声解析処理については、上述した図6に示すステップと同様のため、説明は省略する。
(3-2)パラメータの再入力を案内する動作
図9は、発話の再入力を案内する動作の一例を示すフローチャートである。図9に示すように、スタック113にワードがある場合(S320:Yes)、取出手段106は、スタック113からワードを取出して(S321)、スタック113から削除する。
判定手段102は、取り出されたワードを記憶部11に記憶された類似情報111Dと照合して、取り出されたワードと類似したオプションがあるか否かを判定する(S322)。
類似したオプションがある場合(S322:Yes)、表示制御手段109は、選択画面83を表示するよう制御する(S324)。
類似したオプションがない場合(S322:No)、判定手段102は、取り出されたワードを記憶部11に記憶された連想情報111Eと照合して、取り出されたワードから連想できるオプションがあるか否かを判定する(S323)。
連想できるオプションがある場合(S323:Yes)、表示制御手段109は、選択画面83を表示するよう制御する(S225)。
連想できるオプションがない場合(S323:No)、スタック113に登録されている次のワードに対してステップS321からS324の動作が実行される。なお、このステップS321からS324の動作は、スタック113にワードが登録されている間、各ワードに対して順次実行される。
以下、ステップS325からS331は、上述したステップS125からS131と同様に動作する。すなわち、案内情報に応じてユーザからパラメータが音声入力された場合(S325:Yes)、図6で説明した音声解析処理が実行され(S326)、パラメータがUI入力された場合(S327:Yes)、設定手段104は、入力されたパラメータを設定する(S328)。
一定の時間、音声入力及びUI入力がともに行われない場合(S329:Yes)、設定手段104は、予め定められたパラメータを設定する(S330)。実行手段108は、設定されたパラメータを用いてサービスを実行する(S331)。
<変形例>
図10は、変形例に係る情報処理装置1の制御系の一例を示すブロック図である。図10に示すように、音声入出力装置2は、音声の入力を行う音声入力部18と、音声の出力を行う音声出力装置2Aとに分けて設けてもよい。かかる音声入力部18としては、例えば、内蔵マイク等が該当する。音声出力装置2Aには、例えば、スピーカーが該当する。
かかる構成の場合、音声入力部18は、情報処理装置1の内部に設けてもよい。また、音声処理手段22は、情報処理装置1の制御部10に設けてもよい。
以上、本発明の実施の形態を説明したが、本発明の実施の形態は上記実施の形態に限定されるものではなく、本発明の要旨を変更しない範囲内で種々の変形、実施が可能である。例えば、上述の実施の形態では、センテンスそのものをワードスタック情報113に記録したが、この形態に限定されるものではなく、センテンスから主要なワードを抽出して抜き出したワードのみをワードスタック情報113に記録してもよい。
制御部10の各手段は、それぞれ一部又は全部を再構成可能回路(FPGA:Field Programmable Gate Array)、特定用途向け集積回路(ASIC:Application Specific Integrated Circuit)等のハードウエア回路によって構成してもよい。
また、本発明の要旨を変更しない範囲内で、上記実施の形態の構成要素の一部を省くことや変更することが可能である。また、本発明の要旨を変更しない範囲内で、上記実施の形態のフローにおいて、ステップの追加、削除、変更、入替え等が可能である。また、上記実施の形態で用いたプログラムをCD-ROM等のコンピュータで読み取り可能な記録媒体に記録して提供することができ、クラウドサーバ等の外部サーバに格納しておき、ネットワークを介して利用することもできる。
1…情報処理装置
10…制御部
100…受付手段
101…分割手段
102…判定手段
103…起動手段
104…設定手段
105…登録手段
106…取出手段
107…案内出力手段
108…実行手段
109…表示制御手段
11…記憶部
110…プログラム
111…照会情報
111A…サービス情報
111B…オプション情報
111C…パラメータ情報
111D…類似情報
111E…連想情報
113…ワードスタック情報(スタック)
114…設定情報
115…画面情報
12…操作表示部
14…画像読取部
15…画像出力部
16…ネットワーク通信部
17…ファクシミリ通信部
18…音声入力部
2…音声入出力装置
21…音検知手段
22…音声処理手段
23…音声出力手段
3…ネットワーク
4…外部ファクシミリ装置
5…公衆回線網
7A,7A…ホーム画面
70A,70B…アイコン
8…設定画面
80…一覧画面
81…カラーモード選択釦
82…テンキー
83…選択画面
801…第1の文字列
802…第2の文字列
830…第3の文字列
9…案内画面
91…第1のメッセージ
92…第2のメッセージ
920…例示文

Claims (5)

  1. 入力された音声を示す音声情報を受け付ける音声受付手段と、
    受け付けられた前記音声情報を解析して前記音声情報を一定の単位ごとに区切る音声解析手段と、
    区切られた前記単位に含まれる特定の単語が予め定められた一覧に含まれない場合に、該単位に係る音声情報の入力を案内する案内情報を出力する案内出力手段と、
    前記特定の単語が前記予め定められた一覧に含まれない場合に、前記特定の単語を含む単位を一時的に記憶部に登録する登録手段と、を備え、
    前記予め定められた一覧を第1の一覧とし、
    前記第1の一覧に含まれる単語と、該単語との類似の度合いを示す指標が第1の値以上となる第1の単語と、を含むものを第2の一覧とし、
    前記第1の単語と、前記指標が前記第1の値未満であって、かつ、第2の値以上となる第2の単語と、を含むものを第3の一覧とした場合に、
    前記案内出力手段は、前記記憶部に登録された前記単位に含まれる特定の単語が、前記第2の一覧又は前記第3の一覧に含まれる場合に、前記案内情報を出力する、
    情報処理装置。
  2. 前記単位に含まれる特定の単語が前記予め定められた一覧に含まれない場合に、前記予め定められた一覧を表示するよう制御する表示制御手段をさらに備える、
    請求項に記載の情報処理装置。
  3. 前記表示制御手段は、予め定められた優先順序に応じて前記予め定められた一覧を表示するよう制御する、
    請求項に記載の情報処理装置。
  4. 前記表示制御手段は、前記単位に含まれる特定の単語が前記予め定められた一覧に含まれない場合に、予め定められた規則に応じて自装置に備えられた機能を起動する操作子を選択して表示するよう制御する、
    請求項に記載の情報処理装置。
  5. コンピュータを
    入力された音声を示す音声情報を受け付ける音声受付手段と、
    受け付けられた前記音声情報を解析して前記音声情報を一定の単位ごとに区切る音声解析手段と、
    区切られた前記単位に含まれる特定の単語が予め定められた一覧に含まれない場合に、該単位に係る音声情報の入力を案内する案内情報を出力する案内出力手段と、
    前記特定の単語が前記予め定められた一覧に含まれない場合に、前記特定の単語を含む単位を一時的に記憶部に登録する登録手段として機能させるためのプログラムであって、
    前記予め定められた一覧を第1の一覧とし、
    前記第1の一覧に含まれる単語と、該単語との類似の度合いを示す指標が第1の値以上となる第1の単語と、を含むものを第2の一覧とし、
    前記第1の単語と、前記指標が前記第1の値未満であって、かつ、第2の値以上となる第2の単語と、を含むものを第3の一覧とした場合に、
    前記案内出力手段は、前記記憶部に登録された前記単位に含まれる特定の単語が、前記第2の一覧又は前記第3の一覧に含まれる場合に、前記案内情報を出力する、
    プログラム。
JP2019029284A 2019-02-21 2019-02-21 情報処理装置及びプログラム Active JP7334420B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019029284A JP7334420B2 (ja) 2019-02-21 2019-02-21 情報処理装置及びプログラム
US16/548,179 US20200273462A1 (en) 2019-02-21 2019-08-22 Information processing apparatus and non-transitory computer readable medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019029284A JP7334420B2 (ja) 2019-02-21 2019-02-21 情報処理装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2020134745A JP2020134745A (ja) 2020-08-31
JP7334420B2 true JP7334420B2 (ja) 2023-08-29

Family

ID=72142997

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019029284A Active JP7334420B2 (ja) 2019-02-21 2019-02-21 情報処理装置及びプログラム

Country Status (2)

Country Link
US (1) US20200273462A1 (ja)
JP (1) JP7334420B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210108098A (ko) * 2020-02-25 2021-09-02 삼성전자주식회사 전자 장치 및 그 제어 방법

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001249685A (ja) 2000-03-03 2001-09-14 Alpine Electronics Inc 音声対話装置
JP2003316388A (ja) 2002-04-22 2003-11-07 Toshiba Tec Corp 音声入力装置及びその方法並びに音声入力プログラム
JP2006185306A (ja) 2004-12-28 2006-07-13 Canon Inc 情報処理方法
WO2013190956A1 (ja) 2012-06-19 2013-12-27 株式会社エヌ・ティ・ティ・ドコモ 機能実行指示システム、機能実行指示方法及び機能実行指示プログラム
WO2014109017A1 (ja) 2013-01-09 2014-07-17 三菱電機株式会社 音声認識装置および表示方法
JP2015026102A (ja) 2013-07-24 2015-02-05 シャープ株式会社 電子機器
WO2016151700A1 (ja) 2015-03-20 2016-09-29 株式会社 東芝 意図理解装置、方法およびプログラム
JP2018028733A (ja) 2016-08-15 2018-02-22 株式会社デンソーテン 入力装置、入力装置の制御方法、表示装置および入力プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3605682B2 (ja) * 1996-05-16 2004-12-22 本田技研工業株式会社 音声入力制御装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001249685A (ja) 2000-03-03 2001-09-14 Alpine Electronics Inc 音声対話装置
JP2003316388A (ja) 2002-04-22 2003-11-07 Toshiba Tec Corp 音声入力装置及びその方法並びに音声入力プログラム
JP2006185306A (ja) 2004-12-28 2006-07-13 Canon Inc 情報処理方法
WO2013190956A1 (ja) 2012-06-19 2013-12-27 株式会社エヌ・ティ・ティ・ドコモ 機能実行指示システム、機能実行指示方法及び機能実行指示プログラム
WO2014109017A1 (ja) 2013-01-09 2014-07-17 三菱電機株式会社 音声認識装置および表示方法
JP2015026102A (ja) 2013-07-24 2015-02-05 シャープ株式会社 電子機器
WO2016151700A1 (ja) 2015-03-20 2016-09-29 株式会社 東芝 意図理解装置、方法およびプログラム
JP2018028733A (ja) 2016-08-15 2018-02-22 株式会社デンソーテン 入力装置、入力装置の制御方法、表示装置および入力プログラム

Also Published As

Publication number Publication date
JP2020134745A (ja) 2020-08-31
US20200273462A1 (en) 2020-08-27

Similar Documents

Publication Publication Date Title
US11355106B2 (en) Information processing apparatus, method of processing information and storage medium comprising dot per inch resolution for scan or copy
US7406270B2 (en) Image processing system, image processing device, server and program
JP7003720B2 (ja) 画像処理装置、画像処理装置の制御方法、およびプログラム
US8634100B2 (en) Image forming apparatus for detecting index data of document data, and control method and program product for the same
US8630852B2 (en) Image processing apparatus, speech recognition processing apparatus, control method for speech recognition processing apparatus, and computer-readable storage medium for computer program
US20110054908A1 (en) Image processing system, image processing apparatus and information processing apparatus
JP2009290700A (ja) 画像処理装置、画像処理方法、画像処理プログラムおよび画像処理システム
US20200249883A1 (en) Image forming apparatus, image forming system, and information processing method
JP2018046416A (ja) 情報処理装置及びプログラム
US9529792B2 (en) Glossary management device, glossary management system, and recording medium for glossary generation
JP5343652B2 (ja) 操作画面制御装置、画像形成装置、およびコンピュータプログラム
US11792338B2 (en) Image processing system for controlling an image forming apparatus with a microphone
JP7334420B2 (ja) 情報処理装置及びプログラム
US11625200B2 (en) Information processing device, mobile terminal, and non-transitory computer readable medium for parameter presentation
JP4813421B2 (ja) 画像形成システム及び画像形成システム用プログラム並びに画像形成システム用プログラムを記録したコンピュータ読み取り可能な記録媒体
EP3716040A1 (en) Image forming apparatus and job execution method
US11838460B2 (en) Information processing system, information processing apparatus, and information processing method
US9607076B2 (en) Device and method for determining interest, and computer-readable storage medium for computer program
JP6992332B2 (ja) 画像処理システム、画像処理装置、端末装置及びプログラム
JP2007336008A (ja) 画像検索装置および方法
US11212399B1 (en) Multi-function device with grammar-based workflow search
US20150381831A1 (en) Image processing apparatus, screen display method for the same, and recording medium
JP2006349836A (ja) 文書処理装置
JP7081451B2 (ja) 設定制御装置、設定制御装置の制御方法、およびプログラム
JP2008066819A (ja) 画像形成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220119

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230316

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230718

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230731

R150 Certificate of patent or registration of utility model

Ref document number: 7334420

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150