JP2014085724A - 文字列分割装置、モデルファイル学習装置および文字列分割システム - Google Patents
文字列分割装置、モデルファイル学習装置および文字列分割システム Download PDFInfo
- Publication number
- JP2014085724A JP2014085724A JP2012232182A JP2012232182A JP2014085724A JP 2014085724 A JP2014085724 A JP 2014085724A JP 2012232182 A JP2012232182 A JP 2012232182A JP 2012232182 A JP2012232182 A JP 2012232182A JP 2014085724 A JP2014085724 A JP 2014085724A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- delimiter
- probability
- character
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000926 separation method Methods 0.000 claims description 67
- 238000004364 calculation method Methods 0.000 claims description 31
- 238000001514 detection method Methods 0.000 claims description 22
- 238000000605 extraction Methods 0.000 claims description 21
- 239000000284 extract Substances 0.000 claims description 8
- 238000000034 method Methods 0.000 description 36
- 238000004458 analytical method Methods 0.000 description 31
- 238000012545 processing Methods 0.000 description 26
- 230000000877 morphologic effect Effects 0.000 description 19
- 241001465754 Metazoa Species 0.000 description 9
- 239000002245 particle Substances 0.000 description 9
- 230000011218 segmentation Effects 0.000 description 7
- 208000003028 Stuttering Diseases 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 241001602876 Nata Species 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 235000008429 bread Nutrition 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000002940 repellent Effects 0.000 description 1
- 239000005871 repellent Substances 0.000 description 1
- 230000001846 repelling effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Images
Landscapes
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
【解決手段】表音文字列に対して区切り位置を表す区切り記号「/」が挿入された区切り付き文字列データを多数用意し、区切り文字列データから指定gram数Nずつ抽出した文字列からなるパターン単位で、文字間、文字列先端および終端の各位置における区切り確率を求め、パターンと区切り確率とからなるモデルファイルMFを作成しておく。表音文字列からなる分割対象データから指定gram数Nずつ抽出した文字列からなるパターンに対応する区切り確率をモデルファイルMFから求め(ステップS24)、同一の文字間を含むパターンそれぞれについて検出された前記区切り確率に基づき、前記同一の文字間における、各パターンの区切り確率の平均値を演算し(ステップS26)、この区切り確率の平均値が閾値以上となる位置を、区切り位置と判定する(ステップS27)。
【選択図】図5
Description
例えば、曲名検索システムに、曲名「ホワイトクリスマス」という発話データが入力された場合には、「ホワイトクリスマス」という発話データに対応する情報が音声認識辞書に登録されていれば、「ホワイトクリスマス」という発話データを、対応する文字列に適切に変換することができる。
ここで、新曲名を形態素ごとに分割する方法として、形態素解析方法を用いることが考えられる。
一方、形態素解析用の辞書を用いずに解析を行う方法として、例えば、特許文献1が提案されている。
そこで、この発明は、上記従来の未解決の問題に着目してなされたものであり、表音文字列からなる文字列データを、比較的短時間で的確に形態素に分割することの可能な、文字列分割装置、モデルファイル学習装置および文字列分割システムを提供することを目的としている。
前記区切り判定部は、前記分割対象データの、前記区切り判定部で判定された区切り位置間の文字列の長さを検出し、当該文字列の長さに応じて前記閾値を変更して前記区切り位置を再判定するようになっていてよい。
本実施形態は、本発明の文字列分割システムを用いて、音声認識辞書を作成する場合について説明する。
この音声認識辞書は、発話データに対応する曲名を特定する曲名検索システムで用いられる音声認識辞書である。曲名検索システムでは、発話データに対応する文字列を、音声認識辞書を用いて取得し、取得した文字列に基づき発話データに対応する曲名を検索するようになっている。
図1は、文字列分割システム1の一例を示す構成図である。
文字列分割システム1は、文字列分割装置2と、文字列分割装置2で用いるモデルファイル作成するモデルファイル学習装置3と、を備える。
ここでは、初めに、モデルファイル学習装置3について説明した後、文字列分割装置2について説明する。
モデルファイル学習装置3は、図1に示すように、区切り付き文字列データ入力部31と、区切り情報抽出部32と、モデルファイル作成部33と、モデルファイル記憶部34と、を備える。
学習文1:カイガイ/ハッシン/ナド/アニメ/シンコウ/ニ/チカラ/ヲ/コメル
学習文2:カイテン/ドア/ニ/サワル
学習文3:ブドウカン/コンサート/ナド/アニバーサリー/イヤー/ヘ/ムケタ/キカク
学習文4:ドア/ニ/テ/ヲ/カケル
学習文5:ペット/アンド/アニマル/ノ/セイト
学習文6:アナタ/ワ/ダレ
区切り付き文字列データ入力部31は、例えば、キーボードであって、ユーザがキーボード操作を行い、表音文字列からなる文字列データを入力し、且つこの文字列データに対して区切り記号「/」を挿入することによって、区切り付き文字列データを入力する。
例えば、区切り付き文字列データが前記学習文6「アナタ/ワ/ダレ」の場合には、指定gram数Nを“3”とすると、指定gram数Nの文字列からなる以下の4パターンが得られる。
「/アナタ/」、「ナタ/ワ/」、「タ/ワ/ダ」、「/ワ/ダレ/」
「/アナタ/」 ……「1.0:0.0:0.0:1.0」
「ナタ/ワ/」 ……「0.0:0.0:1.0:1.0」
「タ/ワ/ダ」 ……「0.0:1.0:1.0:0.0」
「/ワ/ダレ/」……「1.0:1.0:0.0:1.0」
そして、キーと、区切り確率とを対応付ける。例えば、第1パターン「/アナタ/」の場合には、キーは「アナタ」となり、区切り確率は「1.0:0.0:0.0:1.0」となる。
モデルファイル作成部33は、区切り情報抽出部32で得られた全てのキーとこれに対応する区切り確率とからなるモデルファイルMFを作成し、これをモデルファイル記憶部34に格納する。
この場合には、各学習文1〜5により得られたキー「ドアニ」に対応する区切り確率について平均値を求め、これをキー「ドアニ」の平均区切り確率とする。
学習文2:/ドア/ニ/……「1.0:0.0:1.0:1.0」
学習文3:ド/アニ ……「0.0:1.0:0.0:0.0」
学習文4:ドア/ニ/ ……「0.0:0.0:1.0:1.0」
学習文5:ド/アニ ……「0.0:1.0:0.0:0.0」
平均区切り確率 ……「0.2:0.6:0.4:0.4」
そして、このようにして求めた平均区切り確率を、このキー(上記の場合には「ドアニ」)の区切り確率としてモデルファイルMFを作成する。
モデルファイル学習装置3では、モデルファイルMFを作成する場合には、まず、区切り付き文字列データを入力する(ステップS11)。
次に、抽出したパターンについて、区切り記号「/」の挿入位置を抽出する(ステップS13)。
続いて、区切り付き文字列データにおいて、抽出開始文字を1文字進め(ステップS14)、抽出開始文字から文字列を抽出することができる場合には、区切り付き文字列データの終端ではないとして(ステップS15)、ステップS12に戻る。
このとき、同一の文字列からなるキーが複数ある場合には、区切り確率の平均値である平均区切り確率を求め、これを、このキーの区切り確率とする。また、既にモデルファイルMFに同一キーが登録されている場合には、登録されている区切り確率を含めて平均区切り確率を求め、これを区切り確率とする。
なお、上記実施形態では、区切り付き文字列データの先頭および終端は、無条件に分割位置とみなすようにしているが、区切り付き文字列データの先頭および終端に「/」が挿入されていれば分割位置、挿入されていなければ分割位置ではないと判断するようにしてもよい。
また、区切り付き文字列データにおいて、特に重要な単語については、重みを付けて、モデルファイルMFを作成するように構成してもよい。例えば、重要な単語を含む学習文を多数用いて、モデルファイルMFを作成すればよい。
次に、文字列分割装置2について説明する。
文字列分割装置2は、図1に示すように、分割対象データ入力部21と、モデルファイル読み込み部22と、区切り確率検出部23と、区切り判定部24と、表示装置25と、を備える。
区切り確率検出部23は、分割対象データ入力部21で読み込んだ分割対象データを、指定gram数Nの文字列ごとに抽出し、且つ抽出開始文字を1文字ずつずらして、指定gram数Nの文字列を順次抽出する。
つまり、例えば、分割対象データとして、「ブランドアニマルガー」が入力された場合には、分割対象データの先頭から指定gram数Nの文字列を抽出し、以後、抽出開始文字を1つずつずらしながら指定gram数Nの文字列を順に抽出する。
そして、分割対象データを分割して得た指定gram数Nの文字列それぞれについて、これと同じ文字列からなるキーを、モデルファイルMFから検索し、対応する区切り確率を得る。つまり、分割対象データが「ブランドアニマルガー」の場合には、前述の6パターンのキーそれぞれについて、モデルファイルMFから区切り確率を得る。
具体的には、分割対象データから得た指定gram数Nの文字列それぞれに対応する区切り確率について、分割対象データの同一の文字間の区切り確率どうしを加算し、その平均を演算することにより、分割対象データにおける区切り確率の平均値を求める。
つまり、例えば分割対象データが「ブランドアニマルガー」の場合、前述のように6パターンのキーそれぞれについて区切り確率が得られる。
第1パターン「ブランド」 ……「0.8:0.0:0.2:0.8」
第2パターン「ランドア」 ……「0.0:0.0:0.5:0.0」
第3パターン「ドアニ」 ……「0.2:0.6:0.4:0.4」
第4パターン「アニマ」 ……「0.5:0.0:0.1:0.2」
第5パターン「ニマル(未知語)」……「0.0:0.0:0.0:0.0」
第6パターン「マルガー」 ……「0.2:0.0:0.7:0.8」
図3に示すように、分割対象データにおいて、最初の文字「ブ」の前側位置での区切り確率が得られているパターンは、第1パターン「ブランド」だけであるから、文字「ブ」の前側位置での区切り確率の平均値は、第1パターンにより得られた区切り確率「0.8」となる。
同様に、分割対象データの「ラン」と「ド」との間の区切り確率の平均値は、第1パターンにおける区切り確率「0.2」と、第2パターンにおける区切り確率「0.0」と、第3パターンにおける区切り確率「0.2」とから、区切り確率の平均値は、「0.133」となる。
分割対象データの「ア」と「ニ」との間の区切り確率の平均値は、第2パターンにおける区切り確率「0.0」と、第3パターンにおける区切り確率「0.4」と、第4パターンにおける区切り確率「0.0」と、第5パターンにおける区切り確率「0.0」と、から、区切り確率の平均値は、「0.1」となる。
分割対象データの「マ」と「ル」との間の区切り確率の平均値は、第4パターンにおける区切り確率「0.2」と、第5パターンにおける区切り確率「0.0」と、第6パターンにおける区切り確率「0.0」と、から、区切り確率の平均値は、「0.067」となる。
分割対象データの「ガー」の後の位置での区切り確率の平均値は、第6パターンにおける区切り確率「0.8」から、区切り確率の平均値は、「0.8」となる。
したがって、分割対象データの前後および文字間の区切り確率の平均値は、図3の最下行に示すように、「0.8:0.0:0.133:0.6:0.1:0.175:0.067:0.35:0.8」となる。
前記閾値は、予め設定しておいてもよく、また、実際の区切り位置検出結果に応じて、閾値を切り替えるようにしてもよい。例えば、閾値を設定するためのキーボードなどの閾値入力装置を設ける。この閾値入力装置をユーザが操作することにより、上述のように、閾値「0.3」と「0.6」との間で切り替え、良好な結果を得ることのできた区切り位置検出結果を選択するようにしてもよい。
分割対象データの分割を行う場合には、まず、モデルファイル記憶部34から、モデルファイルMFを読み込む(ステップS21)。
続いて、ステップS22に移行し、分割対象データ入力部21により分割対象データを入力する(ステップS22)。この分割対象データの先頭から、指定gram数Nの文字列を抽出する(ステップS23)。これを第1パターンとし、第1パターンの文字列をキーとする、区切り確率を、モデルファイルMFから取得し所定の記憶領域に記憶する(ステップS24)。
続いて、ステップS26に移行し、区切り確率の平均値を算出する。具体的には、所定の記憶領域に記憶している、分割対象データの指定gram数Nの文字列からなるパターンのうち、最新パターンの文字列の先頭の文字の前側位置を、区切り確率の平均値の演算対象位置とする。そして、記憶領域に記憶している各パターンのうち、前記演算対象位置を含む全てのパターンについて演算対象位置の区切り確率を求め、各パターンの演算対象位置の区切り確率の平均値を演算する。また、最新パターンが分割対象データの末尾の指定gram数Nの文字列からなる末尾パターンである場合には、末尾パターンの各文字間、および末尾の文字の後側位置のそれぞれについても同様に区切り確率の平均値を演算する。
最新パターンが第5パターン「ニマル」の場合には、演算対象位置は、「ニ」の前側位置となり、この演算対象位置が含まれる第2から第5パターンから特定される「0.0」、「0.4」、「0.0」、「0.0」の平均値「0.1」が区切り確率の平均値となる。
そして、第6パターンは末尾パターンであるから、第6パターンの、「マ」と「ル」との間、「ル」と「ガー」との間、「ガー」の後側位置、についてそれぞれを演算対象位置として区切り確率の平均値を求める。
このようにして、最新パターンについて、区切り確率の平均値を求めたならば、ステップS27に移行し、予め設定した閾値と区切り確率の平均値とを比較し、閾値を超える演算対象位置を、区切り位置と判定する。なお、最新パターンが末尾パターンである場合には、末尾パターンの文字列先頭の文字の前側位置における区切り確率の平均値だけでなく、文字間および末尾の文字の後側位置における区切り確率の平均値についても閾値と比較する。この比較結果は所定の記憶領域に格納しておく。
なお、図5のフローチャートでは、パターン毎に、区切り確率を読み込んだ後、区切り位置判定を行う構成としているが、これに限るものではない。
また、図5のフローチャートでは、予め設定した閾値に基づいて区切り位置判定を行う構成としているが、これに限るものではない。
例えば、閾値として基準値「0.5」を用いて、区切り位置判定を行ったが、区切り位置間の文字列の平均長さが目標値よりも短い場合には、細かく分割しすぎであるため、閾値を「0.6」に調整するなどの処理を行う。
図7から閾値が大きいときほど、区切り位置間の文字列の平均長さが長くなり、区切り位置間の文字列の平均長さを、「5」にする場合には「0.6〜0.7」を閾値として用いればよいことがわかる。
このように構成することによって、分割対象データの区切り位置間の文字列の長さが適度な長さになるように自動的に調整することができる。
例えば、図3に示すパターンと区切り確率との対応において、区切り確率が最大であるのは、「0.8」であるため、区切り確率が「0.8」である、「ブ」の前側位置、「ド」と「ア」との間、「ガー」の後を区切り位置と判定するようにしてもよい。
次に、分割対象データとしての新曲名を分割する際の全体動作を説明する。
まず、モデルファイル学習装置3において、予めモデルファイルMFを作成し、モデルファイル記憶部34に格納しておく。このとき、モデルファイルMFは予め設定した指定gram数Nの文字列からなるキーについて作成する。
ここで、前述のように、文字列分割装置2では、モデルファイルMFに登録されている区切り確率に基づき、分割対象データを分割している。そのため、良好なモデルファイルMFを用いるほど、分割対象データの分割を適切に行うことができる。
また、モデルファイルMFを、定期的あるいは新曲が出るタイミング等といった予め設定したタイミングで、新曲の名前になりそうな流行語や世情を表す言葉などが含まれた学習文を用いて、更新するようにしてもよい。このように、流行語などを含む学習文を用いてモデルファイルMFを作成することによって、区切り位置の検出精度の向上につながる。
そして、パターンを生成する毎に、モデルファイルMFに基づき区切り確率を求め、さらに所定の演算対象位置における各パターンに基づく区切り確率の平均値を求める。そして、区切り確率の平均値が閾値を上回る位置を区切り位置と判断し、全てのパターンについて区切り位置の判定が終了したとき、分割対象データの区切り位置の検出結果を表示する。
例えば、「ホワイトクリスマス」という表音文字列を分割対象データとして、文字列分割装置2を用いて区切り位置を検出することによって、「ホワイト」と「クリスマス」とに分割することができる。
また、漢字や助詞、また、文全体での単語のつながりなど考慮して形態素解析を行う一般的な方法を用いた場合、比較的精度よく形態素解析を行うことができる反面、例えば一カ所区切り位置を誤ると、文全体に渡って、区切り位置が誤って設定される可能性がある。
また、上述のように比較的簡易なアルゴリズムで区切り位置判定を行うことができ、また、処理時間の短縮、処理負荷の軽減を行うことができるため、文字列分割装置2としてはそれほど性能のよい処理装置を用いる必要はない。したがってその分、コスト削減を図ることができる。
また、表音文字列からなる文字列データを、漢字や助詞、前後の単語のつながりを考慮して形態素解析を行う一般的な形態素解析方法を用いて分割した場合、前述のように漢字や助詞などを含む文を分割する場合に比較して、分割位置の精度が低下する。
また、前述のように、使い勝手のよい曲名検索システムを実現するためには、新曲が出るとき等のタイミングで、新曲名を形態素に分割した「ホワイト」、「クリスマス」などといった単語を、音声認識辞書に登録する必要がある。
なお、上記分割対象データ、また、区切り付き文字列データは、ひらがな、カタカナからなる場合すなわち日本語に限るものではなく、英語などのローマ字や中国語などの漢字を用いた言語、また、その他の言語であっても適用することができる。
また、図2のステップS16の処理が区切り確率演算部および平均値演算部に対応している。
2 文字列分割装置
3 モデルファイル学習装置
21 分割対象データ入力部
22 モデルファイル読み込み部
23 区切り確率検出部
24 区切り判定部
25 表示装置
31 区切り付き文字列データ入力部
32 区切り情報抽出部
33 モデルファイル作成部
34 モデルファイル記憶部
Claims (7)
- 設定された文字数の文字列からなるキーと当該文字列の文字間が区切りとなる確率を表す区切り確率とが対応付けられたものが複数格納されてなるモデルファイルを読み込むモデルファイル読み込み部と、
表音文字列からなる分割対象データを入力する分割対象データ入力部と、
前記モデルファイル読み込み部で読み込んだモデルファイルをもとに、前記分割対象データ入力部で入力した前記分割対象データを構成する文字列における文字間の区切り確率を検出する区切り確率検出部と、
当該区切り確率検出部で検出した前記分割対象データを構成する文字列における文字間の区切り確率に基づき、前記分割対象データを構成する文字列の区切り位置を判定する区切り判定部と、を備えることを特徴とする文字列分割装置。 - 前記区切り判定部は、前記分割対象データを構成する文字列における文字間の区切り確率が予め設定した閾値以上である位置を前記区切り位置と判定し、
前記閾値は変更可能に構成されていることを特徴とする請求項1記載の文字列分割装置。 - 前記区切り判定部は、前記分割対象データの、前記区切り判定部で判定された区切り位置間の文字列の長さを検出し、当該文字列の長さに応じて前記閾値を変更して前記区切り位置を再判定することを特徴とする請求項2記載の文字列分割装置。
- 前記区切り確率検出部は、
前記分割対象データを構成する文字列の端から順に1文字ずつずらしながら予め設定した数の文字列をパターンとして抽出するパターン抽出部と、
当該パターンそれぞれについて前記モデルファイルをもとに前記区切り確率を検出する検出部と、
前記分割対象データを構成する文字列のうちの同一の文字間を文字列に含むパターンそれぞれについて検出された前記区切り確率に基づき、前記同一の文字間位置における前記区切り確率の平均値を演算する平均値演算部と、を備え、
前記区切り判定部は、当該平均値演算部で演算された区切り確率の平均値に基づき、前記区切り位置を判定することを特徴とする請求項1から請求項3のいずれか1項に記載の文字列分割装置。 - 表音文字列からなる文字列データに対して当該文字列データの文字列の区切り位置を表す区切り位置情報が付加されてなる区切り付き文字列データを入力する区切り付き文字列データ入力部と、
当該区切り付き文字列データ入力部で入力された区切り付き文字列データから、前記区切り位置情報を抽出する区切り情報抽出部と、
前記区切り付き文字列データから指定された文字数の文字列をパターンとして抽出し、当該パターンを構成する文字列の文字間、前記パターンを構成する文字列の先頭文字の前側位置および終端文字の後側位置における区切り確率を、前記区切り情報抽出部で抽出した前記区切り位置情報に基づき検出し、前記パターンと当該パターンを構成する文字列の各位置における区切り確率とを対応付けてモデルファイルを作成するモデルファイル作成部と、を備えることを特徴とするモデルファイル学習装置。 - 前記モデルファイル作成部は、
前記区切り付き文字列データから指定された文字数の文字列をパターンとして抽出し、当該パターンを構成する文字列の文字間、前記パターンを構成する文字列の先頭文字の前側位置および終端文字の後側位置における区切り確率を、前記区切り情報抽出部で抽出した前記区切り位置情報に基づき検出する区切り確率演算部と、
異なる前記区切り付き文字列パターンから抽出された共通の文字列からなる複数のパターンについて、当該パターンについて検出された前記区切り確率に基づき、前記共通の文字列の文字間、前記共通の文字列の先頭文字の前側位置および終端文字の後側位置それぞれの各位置における区切り確率の平均値を演算する平均値演算部と、を備え、
複数のパターンに共通の文字列については、前記平均値演算部で演算された前記各位置における区切り確率の平均値と前記共通の文字列とを対応付けて、前記モデルファイルを作成することを特徴とする請求項5記載のモデルファイル学習装置。 - 前記請求項1から請求項4のいずれか1項に記載の文字列分割装置と、
前記請求項5または請求項6に記載のモデルファイル学習装置と、を備え、
前記文字列分割装置は、前記モデルファイル学習装置で作成したモデルファイルを用いて前記分割対象データの文字列における文字間の区切り確率を検出することを特徴とする文字列分割システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012232182A JP6055267B2 (ja) | 2012-10-19 | 2012-10-19 | 文字列分割装置、モデルファイル学習装置および文字列分割システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012232182A JP6055267B2 (ja) | 2012-10-19 | 2012-10-19 | 文字列分割装置、モデルファイル学習装置および文字列分割システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014085724A true JP2014085724A (ja) | 2014-05-12 |
JP6055267B2 JP6055267B2 (ja) | 2016-12-27 |
Family
ID=50788757
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012232182A Active JP6055267B2 (ja) | 2012-10-19 | 2012-10-19 | 文字列分割装置、モデルファイル学習装置および文字列分割システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6055267B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016173743A (ja) * | 2015-03-17 | 2016-09-29 | 株式会社Jsol | 顔文字抽出装置、方法及びプログラム |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102022102177A1 (de) | 2022-01-31 | 2023-08-03 | List Technology Ag | Anlage und Verfahren zur Verarbeitung eines Ausgangsmaterials zu einer Formlösung nach dem Trockenlöseverfahren |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001249922A (ja) * | 1999-12-28 | 2001-09-14 | Matsushita Electric Ind Co Ltd | 単語分割方式及び装置 |
JP2006031295A (ja) * | 2004-07-14 | 2006-02-02 | Internatl Business Mach Corp <Ibm> | 単語境界確率推定装置及び方法、確率的言語モデル構築装置及び方法、仮名漢字変換装置及び方法、並びに、未知語モデルの構築方法、 |
JP2013097395A (ja) * | 2011-10-27 | 2013-05-20 | Casio Comput Co Ltd | 情報処理装置及びプログラム |
-
2012
- 2012-10-19 JP JP2012232182A patent/JP6055267B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001249922A (ja) * | 1999-12-28 | 2001-09-14 | Matsushita Electric Ind Co Ltd | 単語分割方式及び装置 |
JP2006031295A (ja) * | 2004-07-14 | 2006-02-02 | Internatl Business Mach Corp <Ibm> | 単語境界確率推定装置及び方法、確率的言語モデル構築装置及び方法、仮名漢字変換装置及び方法、並びに、未知語モデルの構築方法、 |
JP2013097395A (ja) * | 2011-10-27 | 2013-05-20 | Casio Comput Co Ltd | 情報処理装置及びプログラム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016173743A (ja) * | 2015-03-17 | 2016-09-29 | 株式会社Jsol | 顔文字抽出装置、方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6055267B2 (ja) | 2016-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101083540B1 (ko) | 통계적인 방법을 이용한 한자에 대한 자국어 발음열 변환 시스템 및 방법 | |
US9582489B2 (en) | Orthographic error correction using phonetic transcription | |
TWI293455B (en) | System and method for disambiguating phonetic input | |
US8041559B2 (en) | System and method for disambiguating non diacritized arabic words in a text | |
JP4791984B2 (ja) | 入力された音声を処理する装置、方法およびプログラム | |
US20150179173A1 (en) | Communication support apparatus, communication support method, and computer program product | |
JP2013117978A (ja) | タイピング効率向上のためのタイピング候補の生成方法 | |
US9460718B2 (en) | Text generator, text generating method, and computer program product | |
CN110826301B (zh) | 标点符号添加方法、系统、移动终端及存储介质 | |
JP5323652B2 (ja) | 類似語決定方法およびシステム | |
JP2000298667A (ja) | 構文情報による漢字変換装置 | |
KR100509917B1 (ko) | 어절 엔-그램을 이용한 띄어쓰기와 철자 교정장치 및 방법 | |
JP6055267B2 (ja) | 文字列分割装置、モデルファイル学習装置および文字列分割システム | |
US20130080163A1 (en) | Information processing apparatus, information processing method and computer program product | |
JP5642037B2 (ja) | 検索装置、検索方法およびプログラム | |
JP5853595B2 (ja) | 形態素解析装置、方法、プログラム、音声合成装置、方法、プログラム | |
KR20120045906A (ko) | 코퍼스 오류 교정 장치 및 그 방법 | |
JP7102710B2 (ja) | 情報生成プログラム、単語抽出プログラム、情報処理装置、情報生成方法及び単語抽出方法 | |
JP4941495B2 (ja) | ユーザ辞書作成システム、方法、及び、プログラム | |
KR20130122437A (ko) | 영어의 한글 표기 방법 및 시스템 | |
KR20120046850A (ko) | 한글에 대한 유사도 계산 방법 | |
JP2009176148A (ja) | 未知語判定システム、方法及びプログラム | |
KR101658598B1 (ko) | 로마자 발음 표기를 매개로 하는 한글 기반의 중국어 입력 장치 및 방법 | |
Saychum et al. | Efficient Thai Grapheme-to-Phoneme Conversion Using CRF-Based Joint Sequence Modeling. | |
JP2019159118A (ja) | 出力プログラム、情報処理装置及び出力制御方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150930 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160823 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160830 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161018 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161108 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161202 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6055267 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |