JP2012018544A - Audio output device, audio output method and program - Google Patents
Audio output device, audio output method and program Download PDFInfo
- Publication number
- JP2012018544A JP2012018544A JP2010155252A JP2010155252A JP2012018544A JP 2012018544 A JP2012018544 A JP 2012018544A JP 2010155252 A JP2010155252 A JP 2010155252A JP 2010155252 A JP2010155252 A JP 2010155252A JP 2012018544 A JP2012018544 A JP 2012018544A
- Authority
- JP
- Japan
- Prior art keywords
- stroke
- unit
- input
- onomatopoeia
- handwriting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
- Character Discrimination (AREA)
Abstract
Description
本発明は、ユーザの入力に合わせて音声を出力する音声出力装置、音声出力方法、及びプログラムに関する。 The present invention relates to an audio output device, an audio output method, and a program that output audio in accordance with user input.
ユーザの手書き入力に合わせて音声を出力する装置が知られている。特許文献1では、擬似音声を出力する装置が開示されている。これは、ペン入力の移動速度を算出し、移動速度に応じた擬似音声を出力するというものである。紙に何かを書いているような感触をユーザに与えるという効果がある。また、特許文献2では、文字の認識結果だけではなく単語の認識結果を合わせて音声出力する装置が開示されている。単語や文章としてまとまった入力感をユーザに与えるという効果がある。
An apparatus that outputs sound in accordance with a user's handwriting input is known.
また、文字や単語ではなく、擬音語を出力する装置が知られている。特許文献3では、入力された音量に応じた擬音語を文字として撮影画像と合成する装置が開示されている。音を視覚的にユーザに与えることが可能になるという効果がある。
Also known are devices that output onomatopoeic words instead of letters and words.
文字やジェスチャを認識する機能と音声出力機能とを有する装置では、装置が認識した結果を音声出力する機能が有用である。さらにユーザの興味を引くためには、オノマトペ(擬音語や擬態語)などを用いることにより、出力される音声が、表現豊かであることが望ましい。 In a device having a function of recognizing characters and gestures and a sound output function, a function of outputting the result recognized by the device is useful. Further, in order to attract the user's interest, it is desirable that the output voice is rich in expression by using onomatopoeia (onomatopoeia or mimicry word).
しかしながら、特許文献1に開示されている装置が出力する音声からは、装置の認識結果を確認し難い。また、特許文献2に開示されている装置が出力する音声は単調になる。特許文献3に開示されている装置には、手書き入力と擬音語を対応付ける方法が考慮されていない。つまり、従来は手書き入力された文字等を音声として出力する音声出力装置の認識結果を、表現豊かに音声出力することが困難であるという課題がある。
However, it is difficult to confirm the recognition result of the device from the sound output by the device disclosed in
上記の課題に鑑み、本発明は、手書き入力された文字等の認識結果を表現豊かに音声出力することを目的とする。 In view of the above-described problems, an object of the present invention is to express a recognition result of handwritten characters and the like in an expressive manner.
上記の目的を達成する本発明に係る音声出力装置は、
描き始めから描き終わりまでの一連の筆跡を入力する入力手段と、
前記入力手段により入力された筆跡の形状及び大きさを認識する認識手段と、
前記認識手段により認識された筆跡を、当該筆跡を構成する線分の数及び当該筆跡の大きさごとにカテゴリに分類する分類手段と、
前記分類手段により分類されたカテゴリに対応する擬音語又は擬態語を、予め記憶手段に記憶された擬音語又は擬態語から選択する選択手段と、
前記選択手段により選択された擬音語又は擬態語を音声として出力する出力手段と、
を備えることを特徴とする。
An audio output device according to the present invention that achieves the above object is as follows.
An input means for inputting a series of handwriting from the beginning of drawing to the end of drawing,
Recognizing means for recognizing the shape and size of the handwriting input by the input means;
Classification means for classifying the handwriting recognized by the recognition means into categories for each number of line segments constituting the handwriting and the size of the handwriting,
A selection means for selecting an onomatopoeia or mimicry word corresponding to the category classified by the classification means from an onomatopoeia or mimicry word stored in advance in the storage means;
Output means for outputting the onomatopoeia or mimicry word selected by the selection means as speech;
It is characterized by providing.
本発明によれば、手書き入力された文字等の認識結果を表現豊かに音声出力することが可能になる。 According to the present invention, it is possible to express a recognition result of handwritten characters and the like in a richly expressive manner.
(第1実施形態)
図1(a)を参照して、本発明に係る音声出力装置のハードウェア構成について説明する。CPU(中央処理装置)101は、システム制御部として装置全体の動作を制御する。ROM102は、制御プログラムを格納する。具体的には、後述する処理を行うためのプログラムを格納している。RAM103は、CPU101のワークエリアを提供し、各種データなどを格納するために用いられる。記憶装置104は、画像データなどを格納するために用いられる。具体的には、SDカードやハードディスク(HDD)などである。タッチパネル105は、指やペンなどによる入力を処理するために用いられる。スピーカ106は、音声を出力するために用いられる。
(First embodiment)
With reference to FIG. 1A, the hardware configuration of the audio output device according to the present invention will be described. A CPU (Central Processing Unit) 101 controls the operation of the entire apparatus as a system control unit. The
図1(b)を参照して、音声出力装置の機能構成を示すブロック図について説明する。音声出力装置は、入力部151、ストローク辞書152、オノマトペ辞書153、ストローク処理部154、ストローク認識部155、ストローク分類部156、オノマトペ選択部157、音声出力部158を備える。また、ストローク保持部159、ストローク文言取得部160、ジェスチャ辞書161、ジェスチャ処理部162、ジェスチャ認識部163、ジェスチャ文言取得部164、ジェスチャ実行部165、ヘルプ部166を備える。
With reference to FIG.1 (b), the block diagram which shows the function structure of an audio | voice output apparatus is demonstrated. The voice output device includes an
入力部151は、ユーザからの入力を受け付ける。ストローク辞書152は、音声出力装置が認識可能な、ユーザからの入力の情報であるストローク(筆跡)の情報を保持する。ストローク(筆跡)とは、ユーザがタッチパネル105に触れてから離れるまでの一連の動作である。オノマトペ辞書153は、ストロークを構成する線分の数を用いて、入力されたストロークの形状をカテゴリごとに分類して記録する。オノマトペとは、擬音語、擬態語を包括的に表す言葉である。ストローク処理部154は、ストロークに関する処理を統括する。ストローク認識部155は、ストローク処理部154から送られる入力座標の列から、ストロークの形状とタッチパネル等の入力領域におけるストロークの大きさを認識する。ストローク分類部156は、ストローク認識部155で認識された形状と大きさを用いて、入力されたストロークをカテゴリに分類する。オノマトペ選択部157は、分類されたカテゴリに対応するオノマトペをオノマトペ辞書153から選択する。音声出力部158は、送られてくるオノマトペ、後述のストローク文言(第1の文言)、後述のジェスチャ文言(第2の文言)、又は、その他の文言を音声出力する。
The
ストローク保持部159は、入力座標の列を保持する。第1取得手段として機能するストローク文言取得部160は、認識された形状に対応するストローク文言(第1の文言)を、ストローク辞書152から取得する。ジェスチャ辞書161は、1又は2以上のストロークから構成されるジェスチャの情報(図形)を保持する。ジェスチャ処理部162は、ジェスチャに関する処理(図形に対応する処理)を統括する。ジェスチャ認識部163は、ジェスチャ処理部162から送られる入力座標の列を用いて、ジェスチャ(図形)を認識する。第2取得手段として機能するジェスチャ文言取得部164は、ジェスチャ認識部163により認識されたジェスチャに対応するジェスチャ文言(第2の文言)を、ジェスチャ辞書161から取得する。ジェスチャ実行部165は、認識されたジェスチャに対応するコマンドを実行する。ヘルプ部166は、認識されたジェスチャの尤度が小さい場合にジェスチャの正しい書き方を取得する。
The
以下、上記各処理部における処理について具体的に説明する。入力部151は、タッチパネル105を備える。入力部151は、ユーザが指やペンなどでタッチパネル105に触れると、触れた位置の入力座標を検出し、ペンイベントを生成する。生成されるペンイベントは、penDown、penMove、penUpの3種類である。まず、ユーザの指がタッチパネル105に触れた場合、入力部151はpenDownを生成する。そして、指がタッチパネル105に触れたまま移動した場合、penMoveを生成する。最後に、指がタッチパネル105から離れた場合、penUpを生成する。ペンイベントにおいて検出された入力座標は、後述のストローク保持部159により保持される。また、入力の際に指やペンの代わりにマウスを用いることも可能である。その場合、入力部151はタッチパネル105を備えなくても良い。
Hereinafter, the processing in each of the processing units will be specifically described. The
そして、ストローク処理部154は、入力部151により生成されるペンイベントを受け取り、ストロークの区切りを検出する。ユーザがタッチパネル105に触れてから離れるまでを1つのストロークと定義する。つまり、1つのストロークは、1つのpenDownで始まり、1または複数のpenMoveが続き、1つのpenUpで終わるというイベント列である。ストローク処理部154は、ストロークの区切りを検出すると、各ペンイベントから入力座標を取り出し、入力座標の列をストローク認識部155へ送る。
The
図2を参照して、上記ストローク辞書152の例について説明する。ストローク辞書152は、装置が認識可能なストロークの情報を保持している。図2に示すストローク辞書152では、形状名、基準となるストローク、及び対応するストローク文言について7種類のストロークが登録されている。具体的には、横線201、縦線202、小なり203、右向き三角204、左向き三角205、四角206、上半円207の7種類である。
An example of the
ストローク認識部155は、ストローク処理部154から送られる入力座標の列とストローク辞書152に登録された情報とから、ストロークの形状と大きさを認識する。まずストロークの大きさの認識方法について説明する。ストロークの形状の認識方法については後述する。
The
ストロークの大きさは以下の方法で認識される。最初に、入力座標の列に外接する矩形を求める。この矩形の幅がタッチパネルの幅の半分以上、又は矩形の高さがタッチパネルの高さの半分以上ある場合に、ストロークの大きさは「大」と認識される。逆に、矩形の幅と高さが共にタッチパネルの高さと幅の半分未満の場合に、ストロークの大きさは「小」と認識される。 The stroke size is recognized by the following method. First, a rectangle circumscribing the input coordinate column is obtained. If the width of the rectangle is half or more of the width of the touch panel or the height of the rectangle is more than half of the height of the touch panel, the stroke size is recognized as “large”. Conversely, when the width and height of the rectangle are both less than half the height and width of the touch panel, the stroke size is recognized as “small”.
ストローク分類部156は、ストローク認識部155により認識された形状と大きさを用いて、入力されたストロークをカテゴリに分類する。分類方法はオノマトペ辞書153に登録されている分類に従う。オノマトペ選択部157は、分類されたカテゴリに対応するオノマトペを、オノマトペ辞書153から選択する。選択したオノマトペは、音声出力部158へ送られる。
The
図3(a)を参照して、オノマトペ辞書153の例について説明する。図3(a)のオノマトペ辞書153は、図2のストローク辞書152に対応している。すなわち、図2のストローク辞書152に含まれる形状を全て含む。図3(a)のストロークの形状に含まれる「不明1」、「不明2」、「不明3」、「不明4」の形状については後述する。ユーザが入力したストロークに対する音声出力装置の認識結果を、ユーザがオノマトペから確認可能とするために、オノマトペ辞書153は以下の特徴を有する。
An example of the
オノマトペ辞書153では、ストロークを構成する線分の数を用いて、形状がカテゴリに分類されている。図3(a)の例では、形状は4つのカテゴリに分類されている。それぞれのカテゴリは、ストロークを構成する線分の数が1つ、2つ、3つ、4つの形状を含む。「横線201」、「縦線202」、「上半円207」、及び「不明1」の形状が、線分の数が1つのカテゴリに含まれる。同様に、「小なり203」及び「不明2」が、線分の数が2つのカテゴリに含まれる。「右向き三角204」、「左向き三角205」、及び「不明3」が、線分の数が3つのカテゴリに含まれる。「四角206」、及び「不明4」が、線分の数が4つのカテゴリに含まれる。分類されたカテゴリごとに異なるオノマトペを割り当てる。このようにオノマトペを割り当てると以下の効果が得られる。ストロークを構成する線分の数はストロークの形状と密接な関係がある。そのため、認識されたストロークの形状がオノマトペから想像可能となる。よって、音声出力されるオノマトペをユーザが聞くことで、認識されたストロークの形状を確認することが可能となる。
In the
また、オノマトペ辞書153では、ストロークの大きさをカテゴリに分類している。図3(a)の例では「大」と「小」の2つのカテゴリに分類している。このカテゴリごとに異なるオノマトペを割り当てる。このようにオノマトペを割り当てると以下の効果が得られる。認識されたストロークの大きさがオノマトペから想像可能になる。よって、音声出力されるオノマトペをユーザが聞くことで、認識されたストロークの大きさを確認することが可能となる。
The
上記説明では、ストロークの形状と大きさのそれぞれをカテゴリに分類しているが、形状のみをカテゴリに分類することも可能である。例えば、大きさを区別しないジェスチャを用いる場合、ストロークの大きさを認識する必要はない。ジェスチャについては後述する。 In the above description, the shape and size of the stroke are classified into categories, but it is also possible to classify only the shapes into categories. For example, when using a gesture that does not distinguish the size, it is not necessary to recognize the size of the stroke. The gesture will be described later.
図3(a)に示す例を用いて、オノマトペの割り当て方法をより詳細に説明する。まず、形状を分類したカテゴリごとに、オノマトペを割り当てる方法について説明する。ストロークを構成する線分の数に合わせてオノマトペの拍数を増減する。拍数とは、オノマトペの基本となる拍(後述の「さ」又は「す」等)を連続する数である。例えば、ストロークの大きさが「小」の場合は次の通りである。基本の拍を「さ」とする。ストロークを構成する線分の数と同じだけ基本の拍を繰り返し、その後に拍「っ」を加え、オノマトペとする。ストロークを構成する線分の数が2の場合、「さ」を2回繰り返し「っ」を加えた「ささっ」をオノマトペとする。ただし、基本の拍の数とストロークを構成する線分の数を必ずしも同数にする必要はない。例えば、ストロークを構成する線分の数が5以上のストロークに、同一のオノマトペを割り当てることも可能である。オノマトペの基本の拍数を、ストロークを構成する線分の数と等しくすると、音声出力されるオノマトペからストロークの形状が容易に想像可能となる。 The onomatopoeia allocation method will be described in more detail using the example shown in FIG. First, a method for assigning onomatopoeia for each category into which shapes are classified will be described. Increase or decrease the number of beats of onomatopoeia according to the number of line segments that make up the stroke. The number of beats is a number in which beats that are the basis of onomatopoeia (such as “sa” or “su” described later) are consecutive. For example, when the stroke size is “small”, it is as follows. The basic beat is “sa”. Repeat the basic beat as many as the number of line segments that make up the stroke, and then add the beat “tsu” to make the onomatopoeia. When the number of line segments constituting the stroke is 2, “sasa”, which is obtained by repeating “sa” twice and adding “tsu”, is defined as onomatopoeia. However, the number of basic beats and the number of line segments constituting the stroke are not necessarily the same. For example, the same onomatopoeia can be assigned to a stroke having five or more line segments constituting the stroke. When the basic beat number of onomatopoeia is equal to the number of line segments constituting the stroke, the shape of the stroke can be easily imagined from the onomatopoeia that is output as voice.
次に、大きさを分類したカテゴリごとに、オノマトペを割り当てる方法について説明する。ストロークの大きさに合わせて基本の拍を異なるものとする。例えば、大きさが「小」のストロークに対する基本の拍を「さ」とする。そして、大きさが「大」のストロークに対する基本の拍を「す」とする。これにより、認識されたストロークの大きさを容易に確認可能となる。また、基本の拍を繰り返した後に加える拍を異なるものとすると良い。例えば、大きさが「小」のストロークは1拍の「っ」を加える。そして、大きさが「大」のストロークは3拍の「ぅ〜っ」を加える。ストロークを構成する線分の数が2、かつ大きさが「大」の場合、「すすぅ〜っ」をオノマトペとする。大きさが「大」のストロークに対するオノマトペは、大きさが「小」のストロークに対するオノマトペよりも拍数が多くなる。ユーザは、音声出力するオノマトペからストロークの大きさを容易に想像可能となる。 Next, a method for assigning onomatopoeia for each category in which the sizes are classified will be described. The basic beat is different according to the size of the stroke. For example, a basic beat for a stroke having a size of “small” is “sa”. A basic beat for a stroke having a size of “large” is defined as “su”. As a result, the recognized stroke size can be easily confirmed. Moreover, it is good to make the beat added after repeating a basic beat differ. For example, a stroke having a size of “small” adds one beat “t”. The stroke of “large” is added with 3 beats “ぅ ~ っ”. When the number of line segments composing the stroke is 2 and the size is “large”, “Susuzu ~ tsu” is set as the onomatopoeia. The onomatopoeia for the stroke of “large” has a higher number of beats than the onomatopoeia for the stroke of “small”. The user can easily imagine the size of the stroke from the onomatopoeia that outputs voice.
ここではオノマトペとして擬音語を用いる例を説明した。擬音語の代わりに擬態語を用いることも可能である。例えば、形状に円弧を含むストロークと含まないストロークとでカテゴリを分類する。円弧を含むストロークに対するオノマトペを擬態語の「ふわっ」又は「ふわふわっ」とする。ここで「ふわっ」は大きさが「小」の場合で、「ふわふわっ」が大きさが「大」の場合である。円弧を含まないストロークに対しては、図3(a)と同じ擬音語を割り当てる。 Here, an example using an onomatopoeia as an onomatopoeia has been described. It is also possible to use a mimetic word instead of the onomatopoeia. For example, the categories are classified into strokes that include arcs and strokes that do not include arcs. The onomatopoeia for a stroke including an arc is the mimetic word “fluffy” or “fluffy”. Here, “fluff” is a case where the size is “small” and “fluffy” is a case where the size is “large”. The same onomatopoeia as in FIG. 3A is assigned to a stroke that does not include an arc.
以上説明したとおり、ストロークの形状や大きさに、擬音語や擬態語などオノマトペを割り当てることが可能である。割り当てたオノマトペからストロークの形状や大きさが容易に想像可能である。よって、ユーザは音声出力されるオノマトペを聞くことで、認識されたストロークの形状や大きさを確認することが可能となる。また、オノマトペを用いることで表現豊かな音声出力が可能となる。なお、図3(b)は第2実施形態に係るオノマトペ辞書153の例を示す図であり、後述の第2実施形態において説明する。
As described above, onomatopoeia such as onomatopoeia and mimetic words can be assigned to the shape and size of the stroke. The shape and size of the stroke can be easily imagined from the assigned onomatopoeia. Therefore, the user can confirm the shape and size of the recognized stroke by listening to the onomatopoeia that is output as voice. In addition, the use of onomatopoeia makes it possible to output an expressive voice. FIG. 3B is a diagram showing an example of the
ストローク保持部159は、ペンイベントから取り出した入力座標の列を保持する。ストローク文言取得部160は、認識された形状に対応するストローク文言を、ストローク辞書152から取得する。ストローク文言は、認識されたストロークの形状を説明する文言である。ここで、取得されたストローク文言に何らかの修正が加えられても良い。取得されたストローク文言は、音声出力部158へ送られる。
The
一方、ジェスチャ処理部162は、入力された複数のストロークに対して、ジェスチャの区切りを検出する。検出方法については後述する。1つのジェスチャは、1つ又は複数のストロークから構成される。
On the other hand, the
図4を参照して、ジェスチャ辞書161の例について説明する。例えば、「4枚表示」のジェスチャは「横線201」と「縦線202」の2つのストロークから構成される。また、「1枚表示」のジェスチャは「四角206」の1つのストロークから構成される。検出されたジェスチャ区切り同士の間に含まれる各ストロークに対応する入力座標の列を、ストローク保持部159から取り出す。取り出した入力座標の列はジェスチャ認識部163へ送られる。
An example of the
図4に示すジェスチャ辞書161の例について補足する。「4枚表示」と「1枚表示」のジェスチャに含まれる点線の矩形は、タッチパネルの位置と大きさを表すガイドである。これらのジェスチャは、ガイドに合わせた位置及び大きさで入力する必要がある。なお、ガイドがないジェスチャは、タッチパネル上の任意の位置に小さく入力する。
The example of the
ジェスチャ認識部163は、ジェスチャ処理部162から送られる入力座標の列を用いて、ジェスチャを認識する。ジェスチャの認識方法については後述する。ジェスチャ文言取得部164は、認識されたジェスチャに対応するジェスチャ文言を、ジェスチャ辞書161から取得する。ここで、取り出したジェスチャ文言に何らかの修正を加えることも可能である。取得されたジェスチャ文言は音声出力部158へ送られる。ジェスチャ実行部165は、認識されたジェスチャに対応するコマンドを実行する。ヘルプ部166は、認識されたジェスチャの尤度が閾値よりも小さい場合にジェスチャの正しい書き方を取得する。尤度の詳細については後述する。
The
音声出力部158は、送られてくるオノマトペ、ストローク文言、ジェスチャ文言、又はその他の文言を音声出力する。音声出力には様々な方法を用いることが可能である。例えば、音声合成を用いることが可能である。また、オノマトペなどに対応する音声を予め録音しておき、その録音した音声を再生しても良い。オノマトペに対しては、そのオノマトペから想像可能な効果音を予め録音しておくことも可能である。また、オノマトペなどに対応するMIDIデータを保持しておき、そのMIDIデータをシンセサイザー等を用いて演奏することも可能である。
The
以上が、各処理部の動作についての説明である。 The above is the description of the operation of each processing unit.
次に、図5を参照して、本実施形態に係る音声出力装置の処理手順を示すフローチャートについて説明する。また、図6は本実施形態の手書き入力装置の動作例を示す図であり、図5のフローチャートの説明を補足するために用いる。 Next, with reference to FIG. 5, a flowchart illustrating a processing procedure of the audio output device according to the present embodiment will be described. FIG. 6 is a diagram illustrating an operation example of the handwriting input device of the present embodiment, and is used to supplement the description of the flowchart of FIG.
ステップS501において、ストローク処理部154は、penDownのペンイベントを受け取ったか否かを判定する。受け取った場合(ステップS501;YES)、ステップS502へ進む。受け取らなかった場合(ステップS501;NO)、ステップS513へ進む。
In step S501, the
ステップS502において、ストローク処理部154は、受け取ったpenDownのペンイベントから入力座標を取り出す。ストローク文言取得部160は、取り出された入力座標のタッチパネル上での大まかな位置を判定し、この位置に対応する文言を取得する。例えば、タッチパネルの左端付近である場合、図6のID2に示されるように「ひだりのはしから〜」という文言を取得する。なお、タッチパネル上での大まかな位置のそれぞれに対して、対応する文言を予め保持しておくものとする。取得された文言は音声出力部158へ送られる。
In step S502, the
ステップS503において、音声出力部158は、送られてきた文言を音声出力する。penDownのペンイベントはストロークの書き始めに生成される。ここでは、音声出力装置が認識したストロークの書き始めの位置を表す文言を、音声出力することになる。ユーザは出力された音声を聞くことにより、装置が認識した書き始めの位置を確認することができる。図6のID6の場合も同様である。
In step S503, the
ステップS504において、ストローク処理部154は、ペンイベントから入力座標を取り出す。そして、取り出した入力座標はストローク保持部159で保持される。ステップS505において、ストローク処理部154は、penMoveのペンイベントを受け取ったか否かを判定する。受け取った場合(ステップS505;YES)、ステップS504へ戻る。受け取らなかった場合(ステップS505;NO)、ステップS506へ進む。
In step S504, the
ステップS506において、ストローク処理部154は、penUpのペンイベントを受け取ったか否かを判定する。受け取った場合(ステップS506;YES)、ステップS507へ進む。受け取らなかった場合(ステップS506;NO)、ステップS505へ戻る。penUpのペンイベントがストロークの区切りとなる。つまり、ステップS501からステップS506において受け取ったペンイベントの列が1つのストロークとなる。
In step S506, the
ステップS507において、ストローク認識部155は、入力されたストロークの形状と大きさを認識する。ステップS508において、ストローク分類部156は、認識された形状と大きさを用いて、入力されたストロークをカテゴリに分類する。ステップS509において、オノマトペ選択部157は、分類されたカテゴリに対応するオノマトペをオノマトペ辞書153から選択する。選択されたオノマトペは音声出力部158へ送られる。なお、ストロークが連続して入力された場合に、簡略化したオノマトペを選択することも可能である。例えば、基本の拍の数を少なくしたものを簡略したオノマトペとする。
In step S507, the
ステップS510において、ストローク文言取得部160は、ストローク辞書152から、認識したストロークの形状に対応するストローク文言を取得する。取得された文言は音声出力部158へ送られる。
In step S <b> 510, the stroke
ステップS511において、音声出力部158は、送られてきたオノマトペを音声出力する。図6のID4の場面に対応する。次に、音声出力部158は、送られてきたストローク文言を音声出力する。図4のID5の場面に対応する。ID5の場面は、ストローク文言取得部160が、取り出した文言に修正を加えた例である。オノマトペとストローク文言との間を違和感なくつなぐために、文言の先頭に助詞「と」を挿入している。ここでは、入力されたストロークに対して、装置が認識した結果が音声出力されることになる。「すぅ〜っ」と「と、よこぼ〜」のように、オノマトペとストローク文言は分けて音声出力部158へ送られる。「すぅ〜っと、よこぼ〜」のようにまとめて送られることはない。これは、後述する冗長な音声出力を避ける処理を容易にするためである。図6のID8の場面では、オノマトペとストローク文言とが共に出力されている。これは、分けて音声出力されたものを1つの場面にまとめたに過ぎない。
In step S511, the
次に、ステップS512において、タイマによる計測を開始する。このタイマはジェスチャの区切りを検出するために利用される。 Next, in step S512, measurement by a timer is started. This timer is used to detect gesture breaks.
ステップS513において、ジェスチャ処理部162は、タイマによる計測の開始後一定時間が経過したか否かを判定する。一定時間が経過した場合(ステップS513;YES)、ステップS514へ進む。一定時間が経過していない場合(ステップS513;NO)、ステップS501へ進む。最後のストロークが入力された後、一定時間が経過した場合、ジェスチャの区切りと判定する。それまでに入力された1つ以上の複数のストロークをまとめて1つのジェスチャと判定する。
In step S513, the
ステップS514において、タイマによる計測を停止する。ステップS515において、ジェスチャ認識部163は、入力されたジェスチャを認識する。ステップS516において、ジェスチャ文言取得部164は、ジェスチャ辞書161から、認識されたジェスチャに対応するコマンドを説明するジェスチャ文言を取得する。取得されたジェスチャ文言は音声出力部158へ送られる。
In step S514, measurement by the timer is stopped. In step S515, the
ステップS517において、音声出力部158は、送られてきたジェスチャ文言を音声出力する。このステップは図6のID9の場面に対応する。ここでは、入力されたジェスチャに対し、装置が認識した結果を音声出力することになる。入力された複数のストロークに関するオノマトペとストローク文言を音声出力した後に、ジェスチャ文言を音声出力することになる。
In step S517, the
ステップS518において、ジェスチャ実行部165は、認識されたジェスチャに対応するコマンドを実行する。図6の例では、「4枚表示」のジェスチャが認識される。そのため、ID10の場面において、画面の表示を4枚表示に変更するというコマンドを実行する。
In step S518, the
以上の処理により、例えば図6に示すようなユーザのジェスチャ入力に合わせて、以下の音声が出力される。「ひだりのはしから〜。すぅ〜っとよこぼう〜。こんどはうえから〜。すぅ〜っとたてぼ〜。4まいひょうじ〜」。これは「4枚表示」のジェスチャの書き方を説明する音声になっている。ジェスチャの入力に合わせてその書き方が音声出力される。そのため、ユーザはジェスチャの書き方を何回も聞くことになり、書き方が記憶に定着しやすくなる。また、文言にメロディーを付けて音声出力すれば、絵描き歌の要領で楽しくジェスチャの書き方を覚えることが可能になる。 Through the above processing, for example, the following voice is output in accordance with the user's gesture input as shown in FIG. “From Hidari no Hashi. Suu ~ tsutoyokobo ~. This is from the top. This is a voice explaining how to write a “4-sheet display” gesture. The writing is output as a gesture. Therefore, the user hears how to write the gesture many times, and the writing is easily fixed in the memory. Also, if you add a melody to the word and output it as a voice, you can learn how to write gestures in a fun way of drawing songs.
次に、図7のフローチャートを参照して、ステップS507における、ストロークの形状を認識する処理手順を詳細に説明する。ステップS701において、ストローク認識部155は、入力されたストロークに対応する入力座標の列と認識候補の基準のストロークとでマッチングを行い、それぞれの認識候補に対する尤度を求める。ストローク辞書152に含まれる形状が認識候補である。基準のストロークは、手本となるストロークの書き方を示すデータである。これはベクトルデータや座標データの形で保持する。
Next, the processing procedure for recognizing the stroke shape in step S507 will be described in detail with reference to the flowchart of FIG. In step S <b> 701, the
ステップS702において、ステップS701で求めた尤度の最大値が予め定めた閾値以上か否かを判定する。閾値以上の場合(ステップS702;YES)、ステップS706へ進む。一方、閾値より小さい場合(ステップS702;NO)、ステップS703へ進む。尤度の最大値が閾値より小さい場合は、入力されたストロークがストローク辞書152に登録されているストロークにマッチしなかったと判定する。つまり、尤度の最大値が閾値より小さいということは、ストロークの形状の認識に失敗したことを意味する。
In step S702, it is determined whether or not the maximum likelihood value obtained in step S701 is equal to or greater than a predetermined threshold value. If it is equal to or greater than the threshold (step S702; YES), the process proceeds to step S706. On the other hand, when smaller than a threshold value (step S702; NO), it progresses to step S703. When the maximum likelihood value is smaller than the threshold value, it is determined that the input stroke does not match the stroke registered in the
ステップS703において、公知技術を用いて、入力されたストロークの頂点を求める。例えば、図8(a)に示すストロークの頂点は2箇所にある。ステップS704において、入力されたストロークを頂点の位置で線分に分割し、ストロークを構成する線分の数nを求める。ステップS705において、形状として「不明n」を認識結果とする。ステップS706において、尤度が最大値となる認識候補を認識結果とする。 In step S703, the vertex of the input stroke is obtained using a known technique. For example, there are two vertices of the stroke shown in FIG. In step S704, the input stroke is divided into line segments at the vertex positions, and the number n of line segments constituting the stroke is obtained. In step S705, “unknown n” is used as the recognition result as the shape. In step S706, the recognition candidate having the maximum likelihood is set as the recognition result.
以上の処理により以下の効果がある。ストローク辞書152を用いた形状の認識に失敗した場合であっても、ストロークを構成する線分の数に応じた形状を結果とすることが可能である。また、オノマトペ辞書153は、図3(a)に示すように、ストロークを構成する線分の数を用いて形状をカテゴリに分類している。よって、入力されたストロークの形状の認識に失敗した場合であっても、成功した場合と一貫した基準で、オノマトペを選択して音声出力することが可能となる。
The above processing has the following effects. Even if the shape recognition using the
図9のフローチャートを参照して、図5のステップS511における、オノマトペとストローク文言を音声出力する処理手順を詳細に説明する。ステップS901において、ストローク認識部155は、今回入力されたストロークが、1つ前に(前回)入力されたストロークと等しいか否かを判定する。2つのストロークの形状と大きさが等しい場合、2つのストロークが等しいと判定する。等しい場合(ステップS901;YES)、ステップS902へ進む。等しくない場合(ステップS901;NO)、ステップS909へ進む。ステップS902において、音声出力部158は、1つ前(前回)のストロークに関するオノマトペを音声出力中であるか否かを判定する。音声出力中の場合(ステップS902;YES)、ステップS903へ進む。音声出力中でない、つまり音声出力が終了している場合(ステップS901;NO)、ステップS906へ進む。
With reference to the flowchart of FIG. 9, the processing procedure for outputting the onomatopoeia and stroke word in step S511 of FIG. 5 will be described in detail. In step S901, the
ステップS903において、音声出力部158は、1つ前(前回)のストロークに関するストローク文言の音声出力をキャンセルする。また、ストローク文言取得部160は、1つ前(前回)のストロークの形状に対応する簡略化したストローク文言を取得し、音声出力部158へ送る。つまり、1つ前(前回)のストロークに関し、ステップS510で取得されたストローク文言を、簡略化したストローク文言へと変更し音声出力することになる。簡略化したストローク文言は予め保持しておく。例えば、形状の「縦線202」に対応する簡略化したストローク文言を「たて」とする。
In step S903, the
ステップS904において、音声出力部158は、今回のストロークに関するオノマトペの音声出力をキャンセルする。ステップS905において、音声出力部158は、今回のストロークに関するストローク文言の音声出力をキャンセルする。また、ストローク文言取得部160は、今回のストロークの形状に対応する簡略化したストローク文言を取得し、音声出力部158へ送る。つまり、今回のストロークに関し、ステップS510で取得したストローク文言を簡略化したストローク文言へ変更し音声出力する。
In step S904, the
ステップS906において、音声出力部158は、1つ前(前回)のストロークに関するストローク文言を音声出力中であるか否かを判定する。音声出力中である場合(ステップS906;YES)、ステップS907へ進む。音声出力中でない、つまり音声出力が終了している場合(ステップS906;NO)、ステップS909へ進む。ステップS907において、音声出力部158は、今回のストロークに関するオノマトペの音声出力をキャンセルする。ステップS908において、音声出力部158は、今回のストロークに関するストローク文言の音声出力をキャンセルする。また、ストローク文言取得部160は、繰り返しを表す文言を取得し、音声出力部へ送る。つまり、今回のストロークに関し、ステップS510で取得したストローク文言を繰り返しを表す文言へ変更して音声出力する。繰り返しを表す文言は予め保持しておく。例えば、「2つ〜」が繰り返しを表す文言である。
In step S <b> 906, the
ステップS909において、今回のストロークに関するオノマトペとストローク文言を音声出力する。形状が「縦線202」であり、大きさが「小」のストロークを2回連続で入力すると、通常は「さっ、とたてぼ〜。さっ、とたてぼ〜」という音声を出力する。これはステップS909を通る処理に対応する。一方、同じストロークを2回、少しテンポよく入力すると、「さっ、とたてぼ〜。2つ〜」という音声を出力する。これはステップS908を通る処理に対応する。そして、同じストロークを2回、さらにテンポよく入力すると、「さっ、とたて、たて」という音声を出力する。これはステップS905を通る処理に対応する。図9に示す処理を行うことにより、冗長な音声出力を避けて、入力のテンポに合わせた音声出力が可能となる。オノマトペとストロークの形状に対応する文言とを分けて音声出力部158へ送るため、このような文言の変更処理が容易に実現できる。
In step S909, the onomatopoeia and stroke word relating to the current stroke are output as voice. When a stroke having a shape of “
上記において、1つ前(前回)のストロークと今回のストロークとの、2つの等しいストロークが連続して入力された場合について説明した。これは、2つ以上の等しいストロークが連続して入力された場合についても当てはまる。つまり、ストローク文言取得部160は、複数の等しいストロークが連続して入力された場合に、ストローク文言を簡略したストローク文言へ変更する。さらに、音声出力部158は、2つ目以降のストロークに関するオノマトペの音声出力をキャンセルする。
In the above description, the case where two equal strokes, the previous (previous) stroke and the current stroke, are continuously input has been described. This is true even when two or more equal strokes are input consecutively. That is, the stroke
2つのストロークが連続して入力されたか否かは次のようにして判定される。1つ前(前回)のストロークに関するオノマトペ又はストローク文言を音声出力中に次のストロークが入力された場合に、ストロークが連続して入力されたと判定される。具体的には、ステップS902の処理と、ステップS906の処理とにより判定される。 Whether or not two strokes are continuously input is determined as follows. When the next stroke is input during voice output of the onomatopoeia or stroke word for the previous (previous) stroke, it is determined that the stroke has been continuously input. Specifically, it is determined by the process of step S902 and the process of step S906.
これまでは複数の等しいストロークが連続して入力された場合について説明した。逆に、等しくないストロークが連続して入力された場合に適用することも可能である。具体的には、ステップS901の処理はスキップされる。そして、ステップS908の処理は、ステップS905の処理に置き換えられる。上記のように処理を行うことにより、等しくないストロークが連続して入力された場合にも、冗長な音声出力を避けて、入力のテンポに合わせた音声出力が可能となる。 So far, the case where a plurality of equal strokes are continuously input has been described. Conversely, the present invention can be applied when unequal strokes are continuously input. Specifically, the process of step S901 is skipped. Then, the process of step S908 is replaced with the process of step S905. By performing processing as described above, even when unequal strokes are continuously input, it is possible to avoid redundant audio output and to output audio in accordance with the input tempo.
次に、図10のフローチャートを参照して、ステップS515〜ステップS518の処理手順をより詳細に説明する。認識されたジェスチャの尤度が閾値よりも小さい場合に、ジェスチャの正しい書き方をユーザに音声出力する機能が追加されている。尤度が小さいということは、ユーザの書き方に何か問題があるということである。正しい書き方を音声出力することにより、ユーザにこの問題を指摘することが可能となる。 Next, the processing procedure of steps S515 to S518 will be described in more detail with reference to the flowchart of FIG. When the likelihood of the recognized gesture is smaller than the threshold value, a function for outputting the correct way of writing the gesture to the user is added. A small likelihood means that there is a problem with the way the user writes. This problem can be pointed out to the user by outputting the correct writing method by voice.
図10におけるステップS516〜ステップS518は、図5で説明した同名のステップと同じ処理である。図5のステップS514から、ステップS1001へ進む。図4のジェスチャ辞書161を用いた場合について説明する。
Steps S516 to S518 in FIG. 10 are the same processes as the steps having the same names described in FIG. From step S514 in FIG. 5, the process proceeds to step S1001. A case where the
ステップS1001において、ジェスチャ認識部163は、入力されたジェスチャに対応する入力座標の列と認識候補の基準のジェスチャとでマッチングを行い、それぞれの認識候補に対し尤度を算出する。ジェスチャ辞書161に含まれるジェスチャが認識候補(図形候補)である。基準のジェスチャは、手本となるジェスチャの書き方を示すデータである。この基準のジェスチャはベクトルデータや座標データの形で保持する。そして、ジェスチャ認識部163は尤度が最大となる認識候補をジェスチャとして識別する。
In step S <b> 1001, the
ステップS1002において、ジェスチャ認識部163は、認識されたジェスチャの尤度が予め定めた閾値以上であるか否かを判定する。閾値以上の場合(ステップS1002;YES)、ステップS516へ進む。一方、閾値より小さい場合(ステップS1002;NO)、ステップS1003へ進む。ステップS1003において、音声出力部158は、ジェスチャの書き方に問題があることを音声出力する。すなわち、記憶部に記憶されたジェスチャの図形に該当しない旨を音声出力する。例えば、音声出力部158は「ジェスチャの書き方に問題があります」のような文言を音声出力する。ステップS1004において、音声出力部158は、入力されたストローク列と、認識されたジェスチャを構成する正しいストローク列とが等しいか否かを判定する。ここで、1又は2以上のストロークをストローク列と称する。それぞれのストローク列に含まれるストロークを1つずつ比較し、その形状と大きさがすべて等しい場合、ストローク列が等しいと判定される。ストローク列が等しい場合(ステップS1004;YES)、ステップS1006へ進む。等しくない場合(ステップS1004;NO)、ステップS1005へ進む。ジェスチャを構成する正しいストローク列は、ジェスチャ辞書161に予め定めておく。例えば、図4に示すように、「印刷設定(印刷モードへ遷移)」のジェスチャを構成するストローク列は、「形状:四角、大きさ:小」及び「形状:四角、大きさ:小」の2つのストロークとする。
In step S1002, the
入力されたストローク列は、ユーザの入力をストローク認識部155が認識した結果である。ユーザによる入力例を図8(b)、図8(c)に示す。図8(b)の入力に対するストローク列は、「形状:四角、大きさ:小」及び「形状:四角、大きさ:小」のようになる。このストローク列は、「印刷設定(印刷モードへ遷移)」のジェスチャを構成する正しいストローク列と等しい。一方、図8(c)の入力に対するストローク列は、「形状:丸、大きさ:小」及び「形状:四角、大きさ:小」のようになる。このストローク列は、「印刷設定(印刷モードへ遷移)」のジェスチャを構成する正しいストローク列と等しくない。
The input stroke sequence is a result of the
ステップS1005において、音声出力部158は、認識されたジェスチャの通常の正しい書き方を取得して音声出力する。通常の正しい書き方は、ジェスチャを構成する各ストロークに関するオノマトペと、ストローク文言と、ジェスチャに関するジェスチャ文言とから構成される。この場合の音声出力は、ジェスチャを正しい書き方で入力した場合に、図5の処理手順に従って出力される音声と等しい。例えば、「印刷設定(印刷モードへ遷移)」のジェスチャの通常の正しい書き方は、「さっ、としかく〜。さっ、としかく〜。いんさつせってぇ〜」である。
In step S1005, the
ステップS1006において、音声出力部158は、認識されたジェスチャの詳細な正しい書き方を取得して音声出力する。詳細な正しい書き方とは、通常の正しい書き方にストローク間の相対的な位置関係や大きさを示す文言を加えたものである。例えば、「印刷設定(印刷モードへ遷移)」のジェスチャの詳細な正しい書き方は、「さっ、としかく〜。そのしたに〜、よこながに〜。さっ、としかく〜。いんさつせってぇ〜」である。ここで「そのしたに〜、よこながに〜」の部分が、各ストローク間の相対的な位置関係や大きさを示す文言である。
In step S <b> 1006, the
具体的には、図8(b)、図8(c)の入力に対して、ジェスチャ認識部163は「印刷設定(印刷モードへ遷移)」のジェスチャを認識する。ただし、図8(b)、図8(c)のどちらの入力にも書き方に問題があるため、尤度が予め定めた閾値よりも小さくなる。よって、ステップS1002からステップS1003へ進む。
Specifically, the
図8(b)のストローク列は、「印刷設定(印刷モードへ遷移)」のジェスチャを構成する正しいストローク列と等しい。よって、ステップS1008において、音声出力部158は詳細な正しい書き方を音声出力する。しかしながら、図8(b)の入力は、個々のストロークは等しいが、2つ目のストロークの大きさに問題がある。2つ目のストロークは1つ目のストロークよりも横長である必要がある(図4参照)。この問題は、ストローク間の相対的な位置関係や大きさを加えた詳細な正しい書き方により解決することが可能である。なお、個々のストロークは正しいため、通常の正しい書き方では、問題を指摘できない。
The stroke sequence in FIG. 8B is equal to the correct stroke sequence constituting the gesture of “print setting (transition to print mode)”. Therefore, in step S1008, the
図8(c)のストローク列は、「印刷設定(印刷モードへ遷移)」のジェスチャを構成する正しいストローク列と等しくない。よって、ステップS1005において、音声出力部158は通常の正しい書き方を音声出力する。図8(c)の入力は、1つ目のストロークの形状に問題がある。この問題は、通常の正しい書き方により指摘が可能である。
The stroke sequence in FIG. 8C is not equal to the correct stroke sequence constituting the “print setting (transition to print mode)” gesture. Therefore, in step S1005, the
一方、図8(b)、図8(c)の入力に対し、「印刷設定(印刷モードへ遷移)」のジェスチャに対応するコマンドを実行することも可能である。しかしながら、その場合、ユーザが間違った書き方を覚えてしまうという課題が生じる。認識されたジェスチャの尤度が小さい場合は、音声出力部158はユーザの書き方に問題があると判断し、コマンドを実行せずに、正しい書き方を音声出力する。これによりユーザが間違った書き方を覚えてしまうことは回避できる。
On the other hand, it is also possible to execute a command corresponding to the gesture of “print setting (transition to print mode)” in response to the inputs shown in FIGS. 8B and 8C. However, in that case, there arises a problem that the user learns the wrong way of writing. When the likelihood of the recognized gesture is small, the
(第2実施形態)
本実施形態に係る音声出力装置は、ユーザの入力したジェスチャに対して、装置がどのように認識したかを音声出力する。また、ユーザの書き方に問題がある場合、ジェスチャの正しい書き方を音声で知らせることが可能である。よって、画面がなくても操作が可能である。例えば、タッチパネル付きの音楽プレイヤーに適用可能である。ユーザは指でタッチパネルにジェスチャを書いて操作する。装置はイヤホンなどを通してユーザに音声出力する。画面を見る必要がないため、音楽プレイヤーをポケットやカバンに入れたままで操作が可能となる。また、画面が必須ではないので、例えば視覚障害者用のユーザインタフェースとして適用が可能である。一般にアプリケーションは複数の画面を持つ。画面を見ずに操作を行う場合、現在どの画面にいるかを音声で確認できることが望ましい。
(Second Embodiment)
The voice output device according to the present embodiment outputs a voice indicating how the device recognizes a gesture input by a user. Also, if there is a problem with the user's way of writing, it is possible to notify the correct way of writing the gesture by voice. Therefore, the operation can be performed without a screen. For example, it can be applied to a music player with a touch panel. The user operates by writing a gesture on the touch panel with a finger. The device outputs sound to the user through an earphone or the like. Since there is no need to look at the screen, the music player can be operated with it in a pocket or bag. Further, since the screen is not essential, it can be applied as a user interface for the visually impaired, for example. In general, an application has a plurality of screens. When operating without looking at the screen, it is desirable to be able to confirm by voice which screen is currently displayed.
図3(b)を参照して、オノマトペ辞書153の他の例について説明する。これは「プレビュー」、「スライドショー」、「印刷」の3画面を持つ画像ビューアの例である。画面ごとにオノマトペの基本となる拍は異なるものとする。これにより、装置が出力するオノマトペから、現在どの画面にいるかを確認することが可能となる。
With reference to FIG. 3B, another example of the
また、本発明に係る音声出力装置は、2次元ジェスチャに限らず、空間(3次元)ジェスチャを用いることも可能である。この場合、タッチパネルの代わりに、手の位置などを検出するためのセンサーを用いる。例えばLEDから光を照射し、手が反射した光がセンサーに届くまでの時間を計測し、位置を検出する構成にすれば良い。 In addition, the audio output device according to the present invention is not limited to a two-dimensional gesture, and a spatial (three-dimensional) gesture can also be used. In this case, a sensor for detecting the position of the hand or the like is used instead of the touch panel. For example, it may be configured to detect the position by irradiating light from the LED, measuring the time until the light reflected by the hand reaches the sensor.
(その他の実施形態)
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
(Other embodiments)
The present invention can also be realized by executing the following processing. That is, software (program) that realizes the functions of the above-described embodiments is supplied to a system or apparatus via a network or various storage media, and a computer (or CPU, MPU, or the like) of the system or apparatus reads the program. It is a process to be executed.
Claims (12)
前記入力手段により入力された筆跡の形状及び大きさを認識する認識手段と、
前記認識手段により認識された筆跡を、当該筆跡を構成する線分の数及び当該筆跡の大きさごとにカテゴリに分類する分類手段と、
前記分類手段により分類されたカテゴリに対応する擬音語又は擬態語を、予め記憶手段に記憶された擬音語又は擬態語から選択する選択手段と、
前記選択手段により選択された擬音語又は擬態語を音声として出力する出力手段と、
を備えることを特徴とする音声出力装置。 An input means for inputting a series of handwriting from the beginning of drawing to the end of drawing,
Recognizing means for recognizing the shape and size of the handwriting input by the input means;
Classification means for classifying the handwriting recognized by the recognition means into categories for each number of line segments constituting the handwriting and the size of the handwriting,
A selection means for selecting an onomatopoeia or mimicry word corresponding to the category classified by the classification means from an onomatopoeia or mimicry word stored in advance in the storage means;
Output means for outputting the onomatopoeia or mimicry word selected by the selection means as speech;
An audio output device comprising:
前記選択手段は、前記記憶手段から簡略化した擬音語又は擬態語を選択することを特徴とする請求項1に記載の音声出力装置。 When the recognition unit recognizes that the same handwriting as the previous input is input by the input unit during the output of the voice by the output unit,
2. The voice output device according to claim 1, wherein the selection unit selects a simplified onomatopoeia or mimetic word from the storage unit.
前記出力手段は、擬音語又は擬態語を音声として出力した後に、前記第1取得手段により取得された第1の文言を音声として出力することを特徴とする請求項1又は2に記載の音声出力装置。 A first acquisition unit that acquires, from the storage unit, a first word representing the shape of the handwriting recognized by the recognition unit;
3. The voice output device according to claim 1, wherein the output unit outputs the first word acquired by the first acquisition unit as a voice after outputting the onomatopoeia or the mimetic word as a voice. .
前記第1取得手段は、筆跡の形状を表す簡略化した文言を取得することを特徴とする請求項3に記載の音声出力装置。 When the recognition means recognizes that the same handwriting as the previous input is input by the input means,
The voice output device according to claim 3, wherein the first acquisition unit acquires a simplified word representing a shape of a handwriting.
前記出力手段は、前回の入力と同一の筆跡に対応する擬音語又は擬態語の音声として出力を行わないことを特徴とする請求項4に記載の音声出力装置。 When the first acquisition unit acquires a simplified word representing the shape of the handwriting,
The voice output device according to claim 4, wherein the output unit does not output the voice of the onomatopoeia or mimicry word corresponding to the same handwriting as the previous input.
前記識別された図形が示す操作を実行するための第2の文言を前記記憶手段から取得する第2取得手段と、をさらに備え、
前記出力手段は、前記入力手段により入力された1又は2以上の筆跡に対応する擬音語又は擬態語と第1の文言とを音声として出力した後に、前記第2取得手段により取得された第2の文言を音声として出力することを特徴とする請求項3乃至5の何れか1項に記載の音声出力装置。 Identification means for identifying one or more handwritings input by the input means as a single figure as a whole;
A second acquisition unit that acquires, from the storage unit, a second word for executing the operation indicated by the identified graphic;
The output means outputs the onomatopoeia or mimetic word corresponding to one or more handwriting inputted by the input means and the first word as speech, and then outputs the second acquired by the second acquisition means. The voice output device according to any one of claims 3 to 5, wherein the wording is output as voice.
前記識別手段は、尤度が最大となる図形候補から1つの図形として識別することを特徴とする請求項6に記載の音声出力装置。 A calculation means for calculating a likelihood for each of a plurality of graphic candidates corresponding to the whole of one or more handwritings input by the input means;
The voice output device according to claim 6, wherein the identifying unit identifies a graphic from a graphic candidate having the maximum likelihood.
前記判定手段により、前記識別手段により識別された図形の尤度が閾値より小さいと判定された場合に、前記出力手段は、入力された図形に該当する図形が前記記憶手段に記憶されていないことを音声として出力することを特徴とする請求項7に記載の音声出力装置。 A determination unit for determining whether or not the likelihood of the graphic identified by the identification unit is smaller than a threshold;
When the determining means determines that the likelihood of the graphic identified by the identifying means is smaller than the threshold, the output means does not store the graphic corresponding to the input graphic in the storage means The voice output device according to claim 7, wherein the voice is output as a voice.
前記識別手段により識別された図形に対応する処理を実行する実行手段と、をさらに備え、
前記判定手段により、前記識別手段により識別された図形の尤度が閾値以上であると判定された場合に、
前記実行手段は、前記識別手段により識別された図形に対応する処理を実行することを特徴とする請求項7に記載の音声出力装置。 Determining means for determining whether or not the likelihood of the graphic identified by the identifying means is smaller than a threshold;
Execution means for executing processing corresponding to the graphic identified by the identification means,
When the determination means determines that the likelihood of the graphic identified by the identification means is greater than or equal to a threshold value,
The voice output device according to claim 7, wherein the execution unit executes a process corresponding to the graphic identified by the identification unit.
前記判定手段により、前記識別手段により識別された図形の尤度が閾値より小さいと判定された場合に、
前記出力手段は、前記識別手段により識別された図形の描き方を音声として出力することを特徴とすることを特徴とする請求項7に記載の音声出力装置。 A determination unit for determining whether or not the likelihood of the graphic identified by the identification unit is smaller than a threshold;
When it is determined by the determining means that the likelihood of the graphic identified by the identifying means is smaller than a threshold value,
8. The audio output apparatus according to claim 7, wherein the output unit outputs a drawing method of the figure identified by the identification unit as a voice.
認識手段が、前記入力工程により入力された筆跡の形状及び大きさを認識する認識工程と、
分類手段が、前記認識工程により認識された筆跡を、当該筆跡を構成する線分の数及び当該筆跡の大きさごとにカテゴリに分類する分類工程と、
選択手段が、前記分類工程により分類されたカテゴリに対応する擬音語又は擬態語を、予め記憶工程で記憶された擬音語又は擬態語から選択する選択工程と、
出力手段が、前記選択工程により選択された擬音語又は擬態語を音声として出力する出力工程と、
を備えることを特徴とする音声出力方法。 An input process in which the input means inputs a series of handwriting from the start to the end of the drawing,
A recognition step for recognizing the shape and size of the handwriting input in the input step;
A classification step for classifying the handwriting recognized by the recognition step into categories according to the number of line segments constituting the handwriting and the size of the handwriting,
A selection step in which the selection means selects an onomatopoeia or mimetic word corresponding to the category classified in the classification step from an onomatopoeia or mimetic word stored in advance in the storage step;
An output step, wherein the output means outputs the onomatopoeia or mimetic word selected in the selection step as speech;
An audio output method comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010155252A JP2012018544A (en) | 2010-07-07 | 2010-07-07 | Audio output device, audio output method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010155252A JP2012018544A (en) | 2010-07-07 | 2010-07-07 | Audio output device, audio output method and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012018544A true JP2012018544A (en) | 2012-01-26 |
Family
ID=45603750
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010155252A Withdrawn JP2012018544A (en) | 2010-07-07 | 2010-07-07 | Audio output device, audio output method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2012018544A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014027674A1 (en) * | 2012-08-17 | 2014-02-20 | Necシステムテクノロジー株式会社 | Input device, input method, and recording medium |
WO2017099214A1 (en) * | 2015-12-11 | 2017-06-15 | ヤマハ発動機株式会社 | Device for presenting onomatopoeia regarding evaluation result for user action |
WO2018110003A1 (en) * | 2016-12-12 | 2018-06-21 | ソニー株式会社 | Information processing device, information processing method, and program |
-
2010
- 2010-07-07 JP JP2010155252A patent/JP2012018544A/en not_active Withdrawn
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014027674A1 (en) * | 2012-08-17 | 2014-02-20 | Necシステムテクノロジー株式会社 | Input device, input method, and recording medium |
JP2014038526A (en) * | 2012-08-17 | 2014-02-27 | Nec System Technologies Ltd | Input device, input method, and program |
WO2017099214A1 (en) * | 2015-12-11 | 2017-06-15 | ヤマハ発動機株式会社 | Device for presenting onomatopoeia regarding evaluation result for user action |
WO2018110003A1 (en) * | 2016-12-12 | 2018-06-21 | ソニー株式会社 | Information processing device, information processing method, and program |
JPWO2018110003A1 (en) * | 2016-12-12 | 2019-10-24 | ソニー株式会社 | Information processing apparatus, information processing method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3728304B2 (en) | Information processing method, information processing apparatus, program, and storage medium | |
JP5897725B2 (en) | User interface device, user interface method, program, and computer-readable information storage medium | |
CN106164932B (en) | The method and apparatus of music symbol for identification | |
JP6432405B2 (en) | Presentation support device, presentation support method, and presentation support program | |
JP2007048177A (en) | Information processing method and information processing device | |
US20150039318A1 (en) | Apparatus and method for selecting control object through voice recognition | |
KR102193029B1 (en) | Display apparatus and method for performing videotelephony using the same | |
CN106463119B (en) | Modification of visual content to support improved speech recognition | |
TW201510774A (en) | Apparatus and method for selecting a control object by voice recognition | |
JP6355823B2 (en) | Input display control device, input display control method, and input display system | |
KR20200115670A (en) | Input display device, input display method, and program | |
JP2018159788A (en) | Information processing device, method and program | |
JP2022519981A (en) | Variable speed phoneme sounding machine | |
JP6176041B2 (en) | Information processing apparatus and program | |
JP2012018544A (en) | Audio output device, audio output method and program | |
KR101567154B1 (en) | Method for processing dialogue based on multiple user and apparatus for performing the same | |
WO2014054717A1 (en) | User interface device, user interface method, program, and computer-readable information storage medium | |
JP2015091077A (en) | Information display device, method and program | |
JP2019101739A (en) | Information processor, information processing system and program | |
JP6391064B2 (en) | Audio output processing apparatus, audio output processing program, and audio output processing method | |
JPWO2020116001A1 (en) | Information processing device and information processing method | |
JP2014089475A (en) | Voice synthesizer and program | |
CN110268467B (en) | Display control system and display control method | |
Glette et al. | Extracting action-sound features from a sound-tracing study | |
KR102235027B1 (en) | Beat visualizing device for singing, it's method and vocal beat score |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20131001 |