JP2013097395A - 情報処理装置及びプログラム - Google Patents
情報処理装置及びプログラム Download PDFInfo
- Publication number
- JP2013097395A JP2013097395A JP2011236417A JP2011236417A JP2013097395A JP 2013097395 A JP2013097395 A JP 2013097395A JP 2011236417 A JP2011236417 A JP 2011236417A JP 2011236417 A JP2011236417 A JP 2011236417A JP 2013097395 A JP2013097395 A JP 2013097395A
- Authority
- JP
- Japan
- Prior art keywords
- word string
- probability coefficient
- delimiter
- probability
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
【解決手段】単語列取得部410が解析対象となる単語列を取得すると、判別部420が教師データ記憶部4730にその単語列を含む教師データが十分に記憶されているか否か判別する。そして、教師データが十分でないと判別すると、(n−1)グラム生成部430が、単語列の部分列である(n−1)グラムを生成する。(n−1)グラム生成部430が生成した部分列のそれぞれについて、確率係数取得部440がその単語列の単語と単語との間である語間のそれぞれで、単語列が区切れる確からしさを示す確率係数を取得し、取得した確率係数から確率係数算出部450が単語列の確率係数を算出する。
【選択図】図3
Description
また、特許文献2は、分かち書きされていない文字列を単語毎に分割する技術を提案している。
注目単語列を取得する単語列取得部と、
前記単語列取得部が取得した注目単語列に含まれる一又は複数の単語を含む部分単語列を複数抽出する抽出部と、
単語列を構成する単語と単語との間である語間それぞれで単語列が区切れる場合と区切れない場合とのそれぞれの区切り方に対応する区切パターンを、前記抽出部が抽出した部分単語列それぞれについて取得し、当該区切パターンに対応する区切り方で当該部分単語列を含む教師単語列が区切れる確からしさを示す区切確率係数を、当該抽出した区切パターンそれぞれについて取得する確率係数取得部と、
前記注目単語列の区切パターンの区切確率係数を、前記確率係数取得部が取得した区切確率係数に基づいて求める確率係数獲得部と、
を備えることを特徴とする。
実施形態1に係る確率係数出力装置40は、図1に示すメニュー表示装置1に搭載されている。メニュー表示装置1は、i)解析対象となる特定のカテゴリに属する文字列(メニュー、献立等)を記載した紙等を撮影する撮影機能、ii)撮影した画像から解析対象となる文字列を認識して抽出する機能、iii)抽出した文字列を解析して単語列に変換する機能、iv)文字列の所定部分(単語間)でメニューが区切れる確率を示す係数(区切確率係数)を出力する機能、v)区切確率係数に基づいて単語列を区切る機能、vi)区切った単語列をそれぞれ翻訳する機能、vii)翻訳結果を表示する機能、等を備える。確率係数出力装置40は、これらの機能のうち、文字列の所定部分(単語間)でメニューが区切れる確率を示す係数(確率係数)を出力する機能を担当する。
メニュー解析部30は、単語列に現れるn個の単語からなる部分単語列(nグラム)を抽出する。さらに、nグラムから後述する区切パターンを生成し、そのうち確率係数を取得する必要のある区切パターンを選択する。
本実施形態で解析対象となる文字列は、図2(a)の上に示されるようなメニューを示す文字列である。図2に示すメニュー「豚バラ肉の赤ワイン煮温野菜添え」にタグを付し、単語毎・固まり毎に分割したデータが教師データ(図2(a)下)である。図2(a)の例では、教師データは「<m><c><s><w>豚</w>バラ肉</w><w>の</w></s><s><w>赤ワイン</w><w>煮</w></s><s><w></c>温野菜</w><w>添え</w></s></m>」である。
なお、どのタグがある部分で区切れていると判断するかの判断基準は、自由に設定可能である。例えば、<s></s>タグがある部分のみで区切れていると判断して区切フラグを配置する設定等の任意の設定が可能である。
例えば、トライグラムを構成する3つの単語(単語A、単語B、単語C)について、単語Aの前、単語Cの後ろを含むいずれの語間でも教師データが区切れて居ない場合に対応する区切パターンは「0A0B0C0」、全ての語間で区切れている場合に対応する区切パターンは「1A1B1C1」、である。
確率係数出力装置40が実行する具体的な処理とその構成については後述する。
翻訳部50が翻訳する方法は既知の任意の翻訳方法であってよいが、ここでは分割された単語列に含まれる単語を、辞書データによって逐次翻訳することとする。
翻訳部50は、翻訳結果を表示部60に伝達する。
確率係数出力装置40は、物理的には、図3(a)に示すように情報処理部401と、データ記憶部402と、プログラム記憶部403と、入出力部404と、通信部405と、内部バス406と、から構成される。
なお、情報処理部401と、データ記憶部402と、プログラム記憶部403と、入出力部404と、は内部バス406によってそれぞれ接続され、情報の送信が可能である。
本実施形態では、教師学習がある区切パターンで区切れる確率で、解析対象となる単語列(メニュー)も区切れるとの仮定の下、メニューのnグラムの区切パターンでメニューが区切れる確からしさを、(n−1)グラム〜モノグラムの教師データから推測する。
一方、nグラムの確率係数が取得できないと判別すると、(n−1)グラム生成部430にnグラムを伝達する。
(n−1)グラム生成部430は、生成した2つの(n−1)グラムを、判別部420に伝達する。
判別部420は、(n−1)グラム生成部430からモノグラムを伝達されると、判別処理を実行せずに確率係数取得部440にそのモノグラムを伝達する。
一方、単語列としてn−1グラム〜モノグラム(ここではjグラムとする)を伝達されると、伝達された全てのjグラムについて、単語列取得部410が取得した情報が示す区切パターンの確率係数を取得するために必要な区切パターンを生成し、それぞれの区切パターンについて確率係数を取得する。
そして、伝達された全てのjグラムと、生成した区切パターンと、その確率係数と、を確率係数算出部450に伝達する。
確率係数取得部440は、確率係数を取得する処理で教師データ記憶部4730に記憶された教師データを参照する。確率係数取得部440がどのように確率係数を取得するか、その具体的な処理内容については後述する。
確率係数算出部450は、nグラムの区切パターンの確率係数を算出すると、そのうち単語列取得部410が取得した、確率係数が必要な区切パターンとその確率係数を抽出して、出力部460に伝達する。
nグラムリスト記憶部4710が記憶するnグラムリストの例を、図4を参照して説明する。図4の例では、nグラム記憶部4710は、トライグラムリスト(図4(a))、バイグラムリスト(図4(b))、モノグラムリスト(図4(c))、をそれぞれ記憶する。
トライグラムリストは、教師データに現れる全てのトライグラムを、そのトライグラムを含む教師データが幾つあるかを示すデータ数と関連付けて記憶している。バイグラムリスト、モノグラムリストについても同様である。
そして、取得した画像から、OCR20が文字を認識して文字列を取得する(ステップS102)。
ここで、メニュー解析部30は文字列から単語を抽出する任意の既知の方法を用いて上記分かち書き処理を実行してよいが、ここでは特許文献2が例示する方法を用いて分かち書き処理を実行することとする。
なお、メニュー解析部30は、解析対象となるメニューが英語やフランス語等の単語毎にスペースで区切られる言語であった場合は、スペースを認識して上記分かち書き処理を実行する。
メニュー分割処理が開始されると、まずメニュー解析部30は単語列からnグラム列を生成する(ステップS201)。nグラム列に含まれる各nグラムは、単語列の部分列である。
なお、ここでnの値は任意に定められたデフォルト値であるってよいが、ここではn=3とする。
ステップS203に至り、メニュー解析部30からnグラムと、確率係数を算出すべき区切パターンについてのコマンドを単語列取得部410が受信すると、確率係数出力装置40は確率係数取得処理を開始する。
確率係数取得処理では、まず判別部420がnグラムリスト記憶部4710に記憶されているトライグラムリストを参照して、注目トライグラムを含む教師データのデータ数を取得する(ステップS301)。
すなわち、p=n2/n1である。
なお、pを求める方法はこれに限らず、pの値が、n2が大きければ大きいほど大きくなり、n1が大きければ大きいほど小さくなる任意の式(例えばp=n2^2/n1^2)で求めることが出来る。
確率係数算出処理1では、まず(n−1)グラム生成部430が注目文字列(nグラム)の部分列である(n−1)グラムを二つ(ここでは図5(a)の前バイグラムと後バイグラム)を生成する。
即ち、現在のn−1が1でないか判別し(ステップS403)、1で無い場合は(ステップS403;NO)、nを1減算して2とし(ステップS404)、ステップS401にもどって(n−1)グラム(ここではモノグラム)を生成する。
未処理の区切パターンがある場合(ステップS504;NO)、kをインクリメントし(ステップS505)、次の区切パターンについてステップS502からの処理を繰り返す。
即ち、前回のループまでで選択されたパターンと共通の区切フラグを持つ2つのうち、i番目のnグラムの最後の単語の後ろで区切れるか否かが、2回目以降のループのステップS202からステップS204で決定される。
即ち、教師学習がある区切パターンで区切れる確率で、解析対象となる単語列(メニュー)も区切れるとの仮定の下、メニューのnグラムの区切パターンでメニューが区切れる確からしさを、(n−1)グラム〜モノグラムの教師データから推測して求めることができる。
そのため、nグラムそのものを含む教師データのみから区切パターンの確率係数を取得してメニューの区切位置を推定するよりも必要な教師データの数が少なくてすむ。
そのため、確率係数出力装置40を含むメニュー表示装置1を用いてメニューを分割すると、メニューを分割する精度が高い。
nグラムの確率係数は、jグラムの対応パターンの少なくとも一つが大きくなるにつれて、nグラムの確率係数も大きくなるような任意の計算式で代替可能である。例えば、対応パターンの確率係数のうち、最も前に位置する対応パターンの確率係数の影響が大きくなるように重み付けして加算する式、各対応パターンの確率係数を累乗平均する式、等に置換することができる。
また、nグラムの確率係数は所定の最大値(たとえば0.8)をもち、算出値が最大値以上であれば最大値を算出結果としてもよい。
さらに、対応パターンの確率係数と算出値とを対応づけて記憶するテーブルを記憶部470に記憶し、算出式によらずこのテーブルを参照してnグラムの確率係数を求めても良い。
次に、本願発明の実施形態2に係るメニュー表示装置1及び確率係数出力装置40について説明する。
ここで、本実施形態の確率係数出力装置40の確率係数の算出方法について、図11を参照して説明する。
なお、この算出式は、前(n−1)グラムにおける対応パターンの確率係数p1を後(n−1)グラムにおける対応パターンの確率係数で振り分ける任意の式(例えばpa=p1^2・(p2^2/(p2+p3)^2)に置き換えることができる。
なお、ここでは前の(n−1)グラムにおける対応パターンの確率係数p1を後ろの(n−1)グラムにおける対応パターンの確率係数で振り分けたが、処理の順序は前後逆でも良い。以下同じである。
また、前後それぞれの(n−1)グラムの対応パターンの確率係数と算出値とを対応づけて記憶するテーブルを記憶部470に記憶し、算出式によらずこのテーブルを参照してnグラムの確率係数を求めても良い。
本実施形態の確率係数出力装置40は、確率係数取得処理(図8)のステップS305で、確率係数算出処理2(図12)を実行する。
即ち、(n−1)グラム列で教師データを分割して、ある区切パターンの区切方を、その区切パターンの区切方で区切れるとした場合にあり得る次の区切パターンの確率に基づいて分配してnグラムの確率係数を算出するため、より多くの情報に基づいて確率係数を算出することができる。そのため、算出精度が高い。
以上、本願発明の実施形態について説明したが、本願の実施形態はこれに限られず、さまざまな変形が可能である。
例えば、上記実施形態1乃至2では、nグラムのデータ数が所定の閾値以下だった場合に、(n−1)グラム〜モノグラムの確率係数から算出したが、本願発明の実施形態はこれに限らない。例えば、このような場合に(n−1)グラム〜モノグラムの確率係数から算出し、さらに所定の閾値以下のデータ数からnグラムの確率係数を求め、算出した値と加算した数値を加算平均として求める値としても良い。
このとき、確率係数出力装置は、通信部405を用いて外部装置にアクセスして教師データを取得する。
注目単語列を取得する単語列取得部と、
前記単語列取得部が取得した注目単語列に含まれる一又は複数の単語を含む部分単語列を複数抽出する抽出部と、
単語列を構成する単語と単語との間である語間それぞれで単語列が区切れる場合と区切れない場合とのそれぞれの区切り方に対応する区切パターンを、前記抽出部が抽出した部分単語列それぞれについて取得し、当該区切パターンに対応する区切り方で当該部分単語列を含む教師単語列が区切れる確からしさを示す区切確率係数を、当該抽出した区切パターンそれぞれについて取得する確率係数取得部と、
前記注目単語列の区切パターンの区切確率係数を、前記確率係数取得部が取得した区切確率係数に基づいて求める確率係数獲得部と、
を備えることを特徴とする情報処理装置。
前記教師単語列は、前記注目単語列と同一カテゴリに属する単語列であって、当該単語列の語間のそれぞれで単語列が区切れるか否かを定義した単語列であり、
前記抽出部が抽出した部分単語列を含む単語列を、前記区切確率係数を取得するための教師単語列として十分な数だけ取得できるか否か判別する判別部をさらに備え、
前記抽出部は、前記判別部が抽出した部分単語列を含む単語列が前記区切確率係数を取得するに十分な数だけ取得できないと判別すると、当該抽出した部分単語列の部分単語列をさらに抽出する、
ことを特徴とする付記1に記載の情報処理装置。
前記確率係数取得部は、前記部分単語列に対して定義できる区切パターンのうち、前記確率係数獲得部が獲得する注目単語列の区切パターンと対応する語間については同じ区切り方である区切パターンを取得する、
ことを特徴とする付記1又は2に記載の情報処理装置。
前記確率係数獲得部が求める注目単語列の区切パターンの区切確率係数は、前記確率係数取得部が取得した区切確率係数の少なくとも一つが大きくなるにつれて大きくなる、
ことを特徴とする付記1乃至3の何れか一つに記載の情報処理装置。
前記抽出部が抽出する部分単語列がそれぞれ同一数の単語から構成される、
ことを特徴とする付記1乃至4の何れか一つに記載の情報処理装置。
前記抽出部は、すくなくとも注目単語列の先頭の単語を含む部分単語列である前部分単語列と最後尾の単語を含む部分単語列である後部分単語列とを抽出し、
前記確率係数獲得部は、前記前部分単語列又は前記後部分単語列のいずれか一方である注目部分単語列から取得された前記区切パターンの区切確率係数を、当該注目部分単語列の区切パターンと対応する語間については同じ区切り方に対応する、前記前部分単語列又は後部分単語列のうち注目単語列でない方の部分単語列から取得された区切パターンの区切確率係数に基づいて割り振って、前記注目単語列の区切パターンの区切確率係数を求める、
ことを特徴とする付記1乃至3の何れか一つに記載の情報処理装置。
前記注目単語列と前記教師単語列とが献立を表現する単語列である、
ことを特徴とする付記1乃至6の何れか1つに記載の情報処理装置。
コンピュータに、
注目単語列を取得する処理、
前記取得した注目単語列に含まれる一又は複数の単語を含む部分単語列を複数抽出する処理、
単語列を構成する単語と単語との間である語間それぞれで単語列が区切れる場合と区切れない場合とのそれぞれの区切り方に対応する区切パターンを、前記抽出した部分単語列それぞれについて取得する処理、
前記取得した区切パターンに対応する区切り方で当該部分単語列を含む教師単語列が区切れる確からしさを示す区切確率係数を、当該抽出した区切パターンそれぞれについて取得する処理、
前記注目単語列の区切パターンの区切確率係数を、前記取得した区切確率係数に基づいて求める処理、
を実行させることを特徴とするプログラム。
Claims (8)
- 注目単語列を取得する単語列取得部と、
前記単語列取得部が取得した注目単語列に含まれる一又は複数の単語を含む部分単語列を複数抽出する抽出部と、
単語列を構成する単語と単語との間である語間それぞれで単語列が区切れる場合と区切れない場合とのそれぞれの区切り方に対応する区切パターンを、前記抽出部が抽出した部分単語列それぞれについて取得し、当該区切パターンに対応する区切り方で当該部分単語列を含む教師単語列が区切れる確からしさを示す区切確率係数を、当該抽出した区切パターンそれぞれについて取得する確率係数取得部と、
前記注目単語列の区切パターンの区切確率係数を、前記確率係数取得部が取得した区切確率係数に基づいて求める確率係数獲得部と、
を備えることを特徴とする情報処理装置。 - 前記教師単語列は、前記注目単語列と同一カテゴリに属する単語列であって、当該単語列の語間のそれぞれで単語列が区切れるか否かを定義した単語列であり、
前記抽出部が抽出した部分単語列を含む単語列を、前記区切確率係数を取得するための教師単語列として十分な数だけ取得できるか否か判別する判別部をさらに備え、
前記抽出部は、前記判別部が抽出した部分単語列を含む単語列が前記区切確率係数を取得するに十分な数だけ取得できないと判別すると、当該抽出した部分単語列の部分単語列をさらに抽出する、
ことを特徴とする請求項1に記載の情報処理装置。 - 前記確率係数取得部は、前記部分単語列に対して定義できる区切パターンのうち、前記確率係数獲得部が獲得する注目単語列の区切パターンと対応する語間については同じ区切り方である区切パターンを取得する、
ことを特徴とする請求項1又は2に記載の情報処理装置。 - 前記確率係数獲得部が求める注目単語列の区切パターンの区切確率係数は、前記確率係数取得部が取得した区切確率係数の少なくとも一つが大きくなるにつれて大きくなる、
ことを特徴とする請求項1乃至3の何れか一項に記載の情報処理装置。 - 前記抽出部が抽出する部分単語列がそれぞれ同一数の単語から構成される、
ことを特徴とする請求項1乃至4の何れか一項に記載の情報処理装置。 - 前記抽出部は、すくなくとも注目単語列の先頭の単語を含む部分単語列である前部分単語列と最後尾の単語を含む部分単語列である後部分単語列とを抽出し、
前記確率係数獲得部は、前記前部分単語列又は前記後部分単語列のいずれか一方である注目部分単語列から取得された前記区切パターンの区切確率係数を、当該注目部分単語列の区切パターンと対応する語間については同じ区切り方に対応する、前記前部分単語列又は後部分単語列のうち注目単語列でない方の部分単語列から取得された区切パターンの区切確率係数に基づいて割り振って、前記注目単語列の区切パターンの区切確率係数を求める、
ことを特徴とする請求項1乃至3の何れか一項に記載の情報処理装置。 - 前記注目単語列と前記教師単語列とが献立を表現する単語列である、
ことを特徴とする請求項1乃至6の何れか一項に記載の情報処理装置。 - コンピュータに、
注目単語列を取得する処理、
前記取得した注目単語列に含まれる一又は複数の単語を含む部分単語列を複数抽出する処理、
単語列を構成する単語と単語との間である語間それぞれで単語列が区切れる場合と区切れない場合とのそれぞれの区切り方に対応する区切パターンを、前記抽出した部分単語列それぞれについて取得する処理、
前記取得した区切パターンに対応する区切り方で当該部分単語列を含む教師単語列が区切れる確からしさを示す区切確率係数を、当該抽出した区切パターンそれぞれについて取得する処理、
前記注目単語列の区切パターンの区切確率係数を、前記取得した区切確率係数に基づいて求める処理、
を実行させることを特徴とするプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011236417A JP5834772B2 (ja) | 2011-10-27 | 2011-10-27 | 情報処理装置及びプログラム |
US13/656,893 US20130110499A1 (en) | 2011-10-27 | 2012-10-22 | Information processing device, information processing method and information recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011236417A JP5834772B2 (ja) | 2011-10-27 | 2011-10-27 | 情報処理装置及びプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2013097395A true JP2013097395A (ja) | 2013-05-20 |
JP2013097395A5 JP2013097395A5 (ja) | 2014-12-04 |
JP5834772B2 JP5834772B2 (ja) | 2015-12-24 |
Family
ID=48619319
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011236417A Active JP5834772B2 (ja) | 2011-10-27 | 2011-10-27 | 情報処理装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5834772B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013161304A (ja) * | 2012-02-06 | 2013-08-19 | Casio Comput Co Ltd | 情報処理装置、データ表示装置及びプログラム |
JP2013171413A (ja) * | 2012-02-20 | 2013-09-02 | Casio Comput Co Ltd | 情報処理装置、データ表示装置及びプログラム |
JP2013171479A (ja) * | 2012-02-22 | 2013-09-02 | Casio Comput Co Ltd | 情報処理装置、データ表示装置及びプログラム |
JP2014085724A (ja) * | 2012-10-19 | 2014-05-12 | Fyuutorekku:Kk | 文字列分割装置、モデルファイル学習装置および文字列分割システム |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6056291B2 (ja) * | 2012-09-11 | 2017-01-11 | カシオ計算機株式会社 | 情報処理装置、データ表示装置及びプログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11338883A (ja) * | 1998-05-29 | 1999-12-10 | Hitachi Ltd | 特徴文字列抽出方法および装置とこれを用いた類似文書検索方法および装置並びに特徴文字列抽出プログラムを格納した記憶媒体および類似文書検索プログラムを格納した記憶媒体 |
JP2001249922A (ja) * | 1999-12-28 | 2001-09-14 | Matsushita Electric Ind Co Ltd | 単語分割方式及び装置 |
JP2005293582A (ja) * | 2004-03-31 | 2005-10-20 | Oce Technol Bv | 複合語を構成する単語を割り出す装置及びコンピュータ化された方法 |
US20110202330A1 (en) * | 2010-02-12 | 2011-08-18 | Google Inc. | Compound Splitting |
-
2011
- 2011-10-27 JP JP2011236417A patent/JP5834772B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11338883A (ja) * | 1998-05-29 | 1999-12-10 | Hitachi Ltd | 特徴文字列抽出方法および装置とこれを用いた類似文書検索方法および装置並びに特徴文字列抽出プログラムを格納した記憶媒体および類似文書検索プログラムを格納した記憶媒体 |
JP2001249922A (ja) * | 1999-12-28 | 2001-09-14 | Matsushita Electric Ind Co Ltd | 単語分割方式及び装置 |
JP2005293582A (ja) * | 2004-03-31 | 2005-10-20 | Oce Technol Bv | 複合語を構成する単語を割り出す装置及びコンピュータ化された方法 |
US20110202330A1 (en) * | 2010-02-12 | 2011-08-18 | Google Inc. | Compound Splitting |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013161304A (ja) * | 2012-02-06 | 2013-08-19 | Casio Comput Co Ltd | 情報処理装置、データ表示装置及びプログラム |
JP2013171413A (ja) * | 2012-02-20 | 2013-09-02 | Casio Comput Co Ltd | 情報処理装置、データ表示装置及びプログラム |
JP2013171479A (ja) * | 2012-02-22 | 2013-09-02 | Casio Comput Co Ltd | 情報処理装置、データ表示装置及びプログラム |
JP2014085724A (ja) * | 2012-10-19 | 2014-05-12 | Fyuutorekku:Kk | 文字列分割装置、モデルファイル学習装置および文字列分割システム |
Also Published As
Publication number | Publication date |
---|---|
JP5834772B2 (ja) | 2015-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2421810C2 (ru) | Грамматический разбор визуальных структур документа | |
JP5834772B2 (ja) | 情報処理装置及びプログラム | |
WO2017177809A1 (zh) | 语言文本的分词方法和系统 | |
CN105068997B (zh) | 平行语料的构建方法及装置 | |
KR101544690B1 (ko) | 단어 분할 장치, 단어 분할 방법 및 단어 분할 프로그램 | |
CN110678868B (zh) | 翻译支持系统、装置和方法以及计算机可读介质 | |
KR101664258B1 (ko) | 텍스트 전처리 방법 및 이를 수행하는 전처리 시스템 | |
JP5927955B2 (ja) | 情報処理装置及びプログラム | |
CN110895961A (zh) | 医疗数据中的文本匹配方法及装置 | |
US20220284185A1 (en) | Storage medium, information processing method, and information processing device | |
JP2020106880A (ja) | 情報処理装置、モデル作成方法及びプログラム | |
JP5870744B2 (ja) | 情報処理装置及びプログラム | |
JP6056291B2 (ja) | 情報処理装置、データ表示装置及びプログラム | |
US20130110499A1 (en) | Information processing device, information processing method and information recording medium | |
KR20120045906A (ko) | 코퍼스 오류 교정 장치 및 그 방법 | |
JP5978645B2 (ja) | 情報処理装置、データ表示装置及びプログラム | |
CN112988962A (zh) | 文本纠错方法、装置、电子设备及存储介质 | |
CN112836057A (zh) | 知识图谱的生成方法、装置、终端以及存储介质 | |
CN115376153B (zh) | 一种合同比对方法、装置及存储介质 | |
JP6269953B2 (ja) | 単語分割装置、方法、及びプログラム | |
JP2014199476A (ja) | 機械翻訳装置、機械翻訳方法およびプログラム | |
JP7023416B2 (ja) | オントロジー生成システム、オントロジー生成方法およびオントロジー生成プログラム | |
JP5450276B2 (ja) | 読み推定装置、読み推定方法、および読み推定プログラム | |
WO2022245407A1 (en) | Systems and methods for field extraction from unlabeled data | |
JP2020187558A (ja) | 係り受け解析システム及び係り受け解析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141022 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141022 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150609 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150612 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150804 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151006 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151019 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5834772 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |