JP6551026B2 - 候補語評価装置、候補語評価システム、プログラム及び候補語評価方法 - Google Patents
候補語評価装置、候補語評価システム、プログラム及び候補語評価方法 Download PDFInfo
- Publication number
- JP6551026B2 JP6551026B2 JP2015154917A JP2015154917A JP6551026B2 JP 6551026 B2 JP6551026 B2 JP 6551026B2 JP 2015154917 A JP2015154917 A JP 2015154917A JP 2015154917 A JP2015154917 A JP 2015154917A JP 6551026 B2 JP6551026 B2 JP 6551026B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- candidate
- candidate word
- additional
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Discrimination (AREA)
Description
他方、テキストの分析等を行う際には、誤ったテキストを、正しいテキストと同様に扱いたいというニーズがある。
第1の発明は、入力語を含む複数の語をテキストデータベースから抽出し、前記複数の語の各々から前記入力語を除いた付加語を、前記付加語の付加位置と共に複数取得する付加語取得手段と、前記付加語取得手段により取得した一の前記付加語を前記付加位置に有する語のうち前記入力語を除く語を、前記テキストデータベースから抽出し、抽出した語から前記付加語を除いた置換候補語を取得する置換候補語取得手段と、を備え、前記置換候補語取得手段は、前記付加語取得手段により取得された全ての付加語に対して処理を行い、前記置換候補語取得手段により全ての付加語に対して処理をした結果、取得した全付加語数と抽出した置換候補語の抽出数との割合から、前記置換候補語の前記入力語に対する付加語による類似度を示す第1スコアを算出する第1スコア算出手段を備える、候補語評価装置である。
第2の発明は、第1の発明の候補語評価装置において、前記入力語を構成する文字のうちの少なくとも1文字を含む語を、前記入力語の文字共有候補語として前記テキストデータベースから抽出し、前記入力語と抽出した前記文字共有候補語との編集距離及び前記文字共有候補語の文字列長を用いて、前記文字共有候補語の前記入力語に対する編集距離による類似度を示す第2スコアを算出する第2スコア算出手段と、前記付加語による類似度と前記編集距離による類似度とを用いて候補語の前記入力語に対する類似度を示す候補スコアを、前記第1スコア算出手段により算出された前記一の置換候補語の前記第1スコアと前記一の文字共有候補語の前記第2スコアとを用いて算出する候補スコア算出手段と、を備えること、を特徴とする候補語評価装置である。
第3の発明は、第2の発明の候補語評価装置において、前記候補スコア算出手段により算出された前記候補スコアと、前記候補語とを表示する候補語表示手段を備えること、を特徴とする候補語評価装置である。
第4の発明は、第1の発明から第3の発明までのいずれかの候補語評価装置において、前記テキストデータベースは、手書き文字及び印刷文字の少なくとも一方を光学式文字読取装置によって光学的に読み取ることで得られたテキストデータを記憶していること、を特徴とする候補語評価装置である。
第5の発明は、第4の発明の候補語評価装置において、前記テキストデータベースは、品目名及びその金額を含む文字が印刷されたレシートを、光学式文字読取装置によって光学的に読み取ることで得られた前記テキストデータを記憶していること、を特徴とする候補語評価装置である。
第6の発明は、第1の発明から第5の発明までのいずれかの候補語評価装置と、手書き文字及び印刷文字の少なくとも一方を光学式文字読取装置によって光学的に読み取ることで得られたテキストデータを記憶したテキストデータベースと、を備える候補語評価システムである。
第7の発明は、第1の発明から第5の発明までのいずれかの候補語評価装置としてコンピュータを機能させるためのプログラムである。
第8の発明は、コンピュータが、入力語を含む複数の語をテキストデータベースから抽出し、前記複数の語の各々から前記入力語を除いた付加語を、前記付加語の付加位置と共に複数取得する付加語取得ステップと、コンピュータが、前記付加語取得ステップにより取得した一の前記付加語を前記付加位置に有する語のうち前記入力語を除く語を、前記テキストデータベースから抽出し、抽出した語から前記付加語を除いた置換候補語を取得する置換候補語取得ステップと、を含み、前記置換候補語取得ステップは、前記付加語取得ステップにより取得された全ての付加語に対して処理を行い、コンピュータが、前記置換候補語取得ステップにより全ての付加語に対して処理をした結果、取得した全付加語数と抽出した置換候補語の抽出数との割合から、前記置換候補語の前記入力語に対する付加語による類似度を示す第1スコアを算出する第1スコア算出ステップをさらに含む、候補語評価方法である。
(実施形態)
<候補語評価システム100の全体構成>
図1は、本実施形態に係る候補語評価システム100の機能ブロックを示す図である。
候補語評価システム100は、候補語評価サーバ1(候補語評価装置)と、テキストDB(データベース)4と、端末8とが、通信ネットワークNwを介して接続されている。
候補語評価システム100は、例えば、端末8から入力された検索語(入力語)に類似する候補語を、テキストDB4から抽出して出力するシステムである。
候補語評価サーバ1は、検索語を受け付けて、その検索語に類似する候補語をテキストDB4から抽出して出力する処理を行うサーバある。
候補語評価サーバ1は、制御部10と、記憶部20と、通信インタフェース部29とを備える。
制御部10は、候補語評価サーバ1の全体を制御するCPU(中央処理装置)である。制御部10は、記憶部20に記憶されているOS(オペレーティングシステム)や、各種のアプリケーションプログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、各種機能を実行する。
制御部10は、検索語受付部11と、置換候補語評価部12と、文字共有候補語評価部13(第2スコア算出手段)と、候補スコア算出部15(候補スコア算出手段)と、候補語表示部17(候補語表示手段)とを備える。
置換候補語評価部12は、置換候補語を抽出して評価する制御部である。
置換候補語評価部12は、付加語取得部12a(付加語取得手段)と、置換候補語取得部12b(置換候補語取得手段)と、置換スコア算出部12c(第1スコア算出手段)とを備える。
付加語取得部12aは、検索語を含む複数の語を、テキストDB4から抽出し、各々の語から検索語を除いた付加語を、その付加位置(前又は後)と共に取得する。
置換候補語取得部12bは、付加語をその付加位置に有する語であって、検索語を除く語を、テキストDB4から抽出し、抽出した語から付加語を除いた語を、置換候補語として取得する。
置換スコア算出部12cは、検索語に対する置換候補語の付加語による類似度を示す置換スコア(第1スコア)を算出する。
文字共有候補語評価部13は、文字共有候補語取得部13aと、編集スコア算出部13bとを備える。
文字共有候補語取得部13aは、検索語を構成する文字のうち少なくとも1文字を含む語を、文字共有候補語としてテキストDB4から抽出する。
編集スコア算出部13bは、検索語と、抽出した文字共有候補語との編集距離及び文字列長を用いて、検索語に対する文字共有候補語の編集距離による類似度を示す編集スコア(第2スコア)を算出する。
候補語表示部17は、候補スコア算出部15が算出した候補スコアと、候補語とを、端末8に出力する制御部である。
なお、これらの各機能の詳細については、後述する。
なお、コンピュータとは、制御部、記憶装置等を備えた情報処理装置をいい、候補語評価サーバ1は、制御部10、記憶部20等を備えた情報処理装置であり、コンピュータの概念に含まれる。
記憶部20は、プログラム記憶部21と、検索語記憶部22とを備える。
プログラム記憶部21は、プログラムを記憶する記憶領域である。プログラム記憶部21は、候補語評価プログラム21a(プログラム)を記憶する。
候補語評価プログラム21aは、制御部10の各機能を実行するためのプログラムである。
検索語記憶部22は、検索語受付部11が受け付けた検索語を記憶する記憶領域である。
通信インタフェース部29は、通信ネットワークNwを介してテキストDB4や端末8との通信を行うためのインタフェース部である。
テキストDB4は、手書き文字及び印刷文字の少なくとも一方を、光学式文字読取装置によって光学的に読み取ることで得られたテキストデータを記憶したDBである。
この例では、テキストDB4は、品目名に関するレシートデータを記憶するものとして説明する。例えば、スマートフォン等の端末(図示せず)のレシート読取エンジンにより、レシートを読み取ってテキストデータにし、端末からテキストDB4にテキストデータを記憶させることで、テキストDB4が構築される。
具体的には、ウーロン茶の商品に関して、「ウーロンチャ」、「烏龍茶」、「烏竜茶」等の表記の違いがある。このように、1つの商品であっても、小売店での登録の違いによって、複数の表現があり得る。また、端末のレシート読取エンジンの誤認識によって、「タ」と「ク」、「゛」と「゜」、「に」と「1こ」等の文字のゆらぎが生じる場合がある。
端末8は、テキストデータを分析するユーザが使用する端末である。端末8は、例えば、パーソナルコンピュータ(PC)や、タブレット端末等で構成することができる。図示していないが、端末8は、制御部、記憶部、表示部等を備える。
通信ネットワークNwは、候補語評価サーバ1と、テキストDB4と、端末8との間のネットワークであり、例えば、インターネット回線等の通信網である。
次に、候補語評価サーバ1で行う処理について説明する。
図2は、本実施形態に係る候補語評価サーバ1での候補語抽出処理を示すフローチャートである。
図3は、本実施形態に係る置換候補語抽出処理及び文字共有候補語抽出処理の概念図である。
図4は、本実施形態に係る候補語評価サーバ1での置換候補語抽出処理を示すフローチャートである。
図5及び図6は、本実施形態に係る置換候補語抽出処理を説明するための図である。
図7は、本実施形態に係る候補語評価サーバ1での文字共有候補語抽出処理を示すフローチャートである。
図8は、本実施形態に係る文字共有候補語抽出処理を説明するための図である。
図9は、本実施形態に係る候補語評価サーバ1で出力する候補語リストの例を示す図である。
S11において、制御部10(置換候補語評価部12)は、置換候補語抽出処理を行う。
置換候補語抽出処理は、図3(A)に示すように、検索語35の前後に付く付加語36を含む語である置換候補語37をテキストDB4から抽出して、検索語35に対する置換候補語37の付加語36による類似度を評価する処理である。
図4のS20において、制御部10(付加語取得部12a)は、テキストDB4を参照して、検索語35を前後に含むテキストデータを取得する。
S21において、制御部10(付加語取得部12a)は、テキストDB4を参照して、取得したテキストデータの件数を集計する。
S22において、制御部10(付加語取得部12a)は、件数の多い順にソートして、上位N個のテキストデータを選定する。
図5(A)は、選定テーブル30の例を示す。選定テーブル30は、検索語35が「ポテトチップス」を含むテキストデータと、テキストDB4に収録されたテキストデータの件数とを対応付けて記憶する。選定テーブル30は、件数が多い順にソートされ、上位N個のテキストデータを選定可能に記憶されている。
図5(B)は、付加語テーブル31の例を示す。付加語テーブル31は、付加語36と、付加語36の配置位置とを対応付けて記憶する。付加語36は、検索語35である「ポテトチップス」を除く語である。
S25において、制御部10(置換候補語取得部12b)は、テキストDB4から付加語36を含むテキストデータを取得する。
図5(C)は、に示す置換候補語テーブル32Aは、付加語36である「うすしお」を、配置位置「後」に有するテキストデータと、付加語36を除いた置換候補語37とを対応付けて記憶している。置換候補語テーブル32Aに示すように、付加語36である「うすしお」を「後」に有する様々な置換候補語37を取得できる。例えば、置換候補語37が「フライドポテト」は、「ポテトチップス」とは異なる品目である。また、置換候補語37が「ポテチ」は、「ポテトチップス」の略語である。さらに、置換候補語37が「ポテトチッブス」は、「ポテトチップス」の「プ」が、「ブ」に誤認識されたものである。
制御部10は、1つの付加語36から置換候補語37を取得する処理を繰り返すことで、図5(C)に示すように、N個の置換候補語テーブル32(32A,32B,・・・)を作成する。
例えば、置換候補語37である「ポテトチッブス」が、付加語36が「うすしお」と付加語36が「無添加」との置換候補語テーブル32に含まれる場合、置換候補語37が「ポテトチッブス」の付加語36の数は、2になる。
S29において、制御部10(置換スコア算出部12c)は、集計した付加語36の数により、置換スコアを算出する。検索語35をqとし、置換候補語37をw1とし、w1の付加語36の数をmとし、付加語36の総数をNとした場合、置換スコアsim_Pt(q,w1)は、次の式で算出できる。
図4に戻り、制御部10は、本処理を終了し、処理を図2に移す。
文字共有候補語抽出処理は、図3(B)に示すように、検索語35の文字と同じ文字を1文字以上含む文字共有候補語38をテキストDB4から抽出して、検索語35に対する文字共有候補語38の編集距離による類似度を評価する処理である。
図7のS40において、制御部10(文字共有候補語取得部13a)は、テキストDB4から検索語35と同じ文字を1文字以上含むテキストデータを抽出する。
S41において、制御部10(文字共有候補語取得部13a)は、検索語35と同じテキストデータを除いた語を、文字共有候補語38とする。
図8は、編集スコアテーブル50の例を示す。S41の処理によって、文字共有候補語部50aに格納される文字共有候補語38が抽出される。文字共有候補語38は、検索語35である「ポテトチップス」を構成する文字「ポ」、「テ」、「ト」、「チ」、「ッ」、「プ」、「ス」のうちのいずれか1つを少なくとも含むテキストデータである。
図7に戻り、S42において、制御部10(編集スコア算出部13b)は、1つの文字共有候補語38を取得する。
図8に示す文字共有候補語38が「ポテチ」は、「テ」と「チ」との間に「ト」の1文字を挿入し、「チ」の後ろに「ッ」、「プ」、「ス」の3文字を挿入することで、「ポテトチップス」に変換できる。よって、文字共有候補語38が「ポテチ」の編集距離は、4である。
上述した文字共有候補語38が「ポテチ」は、文字列長が3であり、他方、検索語35である「ポテトチップス」の文字列長が7であるので、最大文字列長は7である。また、文字共有候補語38が「ポテトチップフ、」の場合には、文字列長が8であり、検索語35の文字列長(7)の方が短いので、最大文字列長は8である。
制御部10は、全ての文字共有候補語38について処理をすることで、編集スコアテーブル50を、全ての項目にデータが入ったものにできる。
また、候補語「トマト」の場合には、編集スコアが0.142であるが(図8)、置換候補語37に含まれないため置換スコアが0である。よって、候補語「トマト」の候補スコアは、0である。
このように、置換候補語37と文字共有候補語38との一方にしか含まれない候補語に関しては、候補スコアが0になる。
図9は、検索語35である「ポテトチップス」に対する候補語リスト60の例を示す。候補語リスト60は、候補スコアの高い順にソートされている。ユーザは、候補語リスト60を参照し、候補スコアが所定値以上の候補語を、検索語35に類似したものとして抽出できる。そして、ユーザは、データ分析の際に、候補語を、検索語35と同様に扱うことができる。
(1)検索語35の前後に付加された付加語36から置換候補語37を抽出できる。また、置換候補語37が検索語35と同じ付加語36を含む場合に、その付加語36の数に応じて、検索語35に対する置換候補語37の付加語36による類似度を、置換スコアとして算出できる。よって、付加語36を用いて置換候補語37を抽出し、置換候補語37の検索語35に対する付加語36による類似度を、客観的に示すことができる。
類似度の高い置換候補語37として、例えば、検索語35の略語や、表記方法の違いによる語の違い(ひらがな、カタカナ、漢字等の表記違い等)を取得できる。
なお、編集距離による類似度の高い候補として、読取エンジンの誤認識(「゜」と「゛」等)を取得できる。
そして、置換スコアと編集スコアとの両方のスコアが高い候補語を出力するので、付加語36による類似度と、編集距離による類似度との両方を満たした候補語を出力できる。
(4)OCRによって読み取られたテキストデータから候補語を抽出するので、様々な用途で使用できる。
(5)紙のレシートに記載されたもので、例えば、店によって異なる記載がされているものを、候補語として抽出できる。
(1)本実施形態では、テキストDBが候補語評価サーバに対して通信可能に接続されたものであるとして説明したが、これに限定されない。テキストDBは、候補語評価サーバが有してもよい。
(2)本実施形態では、テキストDBを、紙のレシートを光学式文字読取装置によって読み取ったレシートデータを記憶するものとして説明したが、これに限定されない。光学式文字読取装置によって読み取ったデータであれば何でもよく、例えば、本の索引データ等であってもよい。また、同じものを様々な異なる表現がされるものとして、例えば、翻訳した語に対しても、有用である。
また、検索語を前に含むテキストデータのみを選定したり、検索語を後ろに含むテキストデータのみを選定したりしてもよい。
(4)本実施形態では、編集距離を、挿入、削除、置換の最小操作数として説明したが、これに限定されない。例えば、レーベンシュタイン距離等の編集距離に関する様々な変形や拡張のものを使用してもよい。
(5)本実施形態では、端末から検索語が入力されるものであるとして説明したが、これに限定されない。例えば、候補語評価サーバに入力部と出力部とを有し、入力部から検索語を入力してもよい。
4 テキストDB
10 制御部
12 置換候補語評価部
12a 付加語取得部
12b 置換候補語取得部
12c 置換スコア算出部
13 文字共有候補語評価部
13a 文字共有候補語取得部
13b 編集スコア算出部
15 候補スコア算出部
17 候補語表示部
21a 候補語評価プログラム
100 候補語評価システム
Nw 通信ネットワーク
Claims (8)
- 入力語を含む複数の語をテキストデータベースから抽出し、前記複数の語の各々から前記入力語を除いた付加語を、前記付加語の付加位置と共に複数取得する付加語取得手段と、
前記付加語取得手段により取得した一の前記付加語を前記付加位置に有する語のうち前記入力語を除く語を、前記テキストデータベースから抽出し、抽出した語から前記付加語を除いた置換候補語を取得する置換候補語取得手段と、
を備え、
前記置換候補語取得手段は、前記付加語取得手段により取得された全ての付加語に対して処理を行い、
前記置換候補語取得手段により全ての付加語に対して処理をした結果、取得した全付加語数と抽出した置換候補語の抽出数との割合から、前記置換候補語の前記入力語に対する付加語による類似度を示す第1スコアを算出する第1スコア算出手段を備える、
候補語評価装置。 - 請求項1に記載の候補語評価装置において、
前記入力語を構成する文字のうちの少なくとも1文字を含む語を、前記入力語の文字共有候補語として前記テキストデータベースから抽出し、前記入力語と抽出した前記文字共有候補語との編集距離及び前記文字共有候補語の文字列長を用いて、前記文字共有候補語の前記入力語に対する編集距離による類似度を示す第2スコアを算出する第2スコア算出手段と、
前記付加語による類似度と前記編集距離による類似度とを用いて候補語の前記入力語に対する類似度を示す候補スコアを、前記第1スコア算出手段により算出された前記一の置換候補語の前記第1スコアと前記一の文字共有候補語の前記第2スコアとを用いて算出する候補スコア算出手段と、
を備えること、
を特徴とする候補語評価装置。 - 請求項2に記載の候補語評価装置において、
前記候補スコア算出手段により算出された前記候補スコアと、前記候補語とを表示する候補語表示手段を備えること、
を特徴とする候補語評価装置。 - 請求項1から請求項3までのいずれかに記載の候補語評価装置において、
前記テキストデータベースは、手書き文字及び印刷文字の少なくとも一方を光学式文字読取装置によって光学的に読み取ることで得られたテキストデータを記憶していること、
を特徴とする候補語評価装置。 - 請求項4に記載の候補語評価装置において、
前記テキストデータベースは、品目名及びその金額を含む文字が印刷されたレシートを、光学式文字読取装置によって光学的に読み取ることで得られた前記テキストデータを記憶していること、
を特徴とする候補語評価装置。 - 請求項1から請求項5までのいずれかに記載の候補語評価装置と、
手書き文字及び印刷文字の少なくとも一方を光学式文字読取装置によって光学的に読み取ることで得られたテキストデータを記憶したテキストデータベースと、
を備える候補語評価システム。 - 請求項1から請求項5までのいずれかに記載の候補語評価装置としてコンピュータを機能させるためのプログラム。
- コンピュータが、入力語を含む複数の語をテキストデータベースから抽出し、前記複数の語の各々から前記入力語を除いた付加語を、前記付加語の付加位置と共に複数取得する付加語取得ステップと、
コンピュータが、前記付加語取得ステップにより取得した一の前記付加語を前記付加位置に有する語のうち前記入力語を除く語を、前記テキストデータベースから抽出し、抽出した語から前記付加語を除いた置換候補語を取得する置換候補語取得ステップと、
を含み、
前記置換候補語取得ステップは、前記付加語取得ステップにより取得された全ての付加語に対して処理を行い、
コンピュータが、前記置換候補語取得ステップにより全ての付加語に対して処理をした結果、取得した全付加語数と抽出した置換候補語の抽出数との割合から、前記置換候補語の前記入力語に対する付加語による類似度を示す第1スコアを算出する第1スコア算出ステップをさらに含む、
候補語評価方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015154917A JP6551026B2 (ja) | 2015-08-05 | 2015-08-05 | 候補語評価装置、候補語評価システム、プログラム及び候補語評価方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015154917A JP6551026B2 (ja) | 2015-08-05 | 2015-08-05 | 候補語評価装置、候補語評価システム、プログラム及び候補語評価方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017033434A JP2017033434A (ja) | 2017-02-09 |
JP6551026B2 true JP6551026B2 (ja) | 2019-07-31 |
Family
ID=57988251
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015154917A Active JP6551026B2 (ja) | 2015-08-05 | 2015-08-05 | 候補語評価装置、候補語評価システム、プログラム及び候補語評価方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6551026B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111160013B (zh) * | 2019-12-30 | 2023-11-24 | 北京百度网讯科技有限公司 | 文本纠错方法及装置 |
JP7421384B2 (ja) * | 2020-03-19 | 2024-01-24 | 株式会社Pfu | 情報処理装置、修正候補表示方法、及びプログラム |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3309174B2 (ja) * | 1995-05-15 | 2002-07-29 | 日本電信電話株式会社 | 文字認識方法及び装置 |
JP4066507B2 (ja) * | 1998-05-11 | 2008-03-26 | 日本電信電話株式会社 | 日本語文字認識誤り訂正方法及び装置、並びに、誤り訂正プログラムを記録した記録媒体 |
JP2000222427A (ja) * | 1999-02-02 | 2000-08-11 | Mitsubishi Electric Corp | 関連語抽出装置、関連語抽出方法及び関連語抽出プログラムが記録された記録媒体 |
JP2005326972A (ja) * | 2004-05-12 | 2005-11-24 | Sun Corp | 購入情報管理装置 |
JP5703629B2 (ja) * | 2010-08-24 | 2015-04-22 | 大日本印刷株式会社 | 同義語辞書生成装置、データ解析装置、データ検出装置、同義語辞書生成方法及び同義語辞書生成プログラム |
JP2012247948A (ja) * | 2011-05-26 | 2012-12-13 | Nippon Telegr & Teleph Corp <Ntt> | 辞書管理装置、辞書管理方法、辞書管理プログラム |
-
2015
- 2015-08-05 JP JP2015154917A patent/JP6551026B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017033434A (ja) | 2017-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6462970B1 (ja) | 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム | |
US9645979B2 (en) | Device, method and program for generating accurate corpus data for presentation target for searching | |
US20140351228A1 (en) | Dialog system, redundant message removal method and redundant message removal program | |
US9898464B2 (en) | Information extraction supporting apparatus and method | |
JP5445787B2 (ja) | 属性抽出方法、システム及びプログラム | |
JP2010015554A (ja) | 表構造解析装置、表構造解析方法および表構造解析プログラム | |
JP2008198132A (ja) | 固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置 | |
US8290925B1 (en) | Locating product references in content pages | |
US20190362187A1 (en) | Training data creation method and training data creation apparatus | |
US9430793B2 (en) | Dictionary generation device, dictionary generation method, dictionary generation program and computer-readable recording medium storing same program | |
JP6551026B2 (ja) | 候補語評価装置、候補語評価システム、プログラム及び候補語評価方法 | |
KR20180036074A (ko) | 텍스트 필터링 장치 및 방법 | |
JP2016212879A (ja) | 情報処理方法及び情報処理装置 | |
JP5117744B2 (ja) | 単語意味タグ付与装置および方法、プログラム並びに記録媒体 | |
US20140358522A1 (en) | Information search apparatus and information search method | |
JP5869948B2 (ja) | パッセージ分割方法、装置、及びプログラム | |
CN110334324A (zh) | 一种基于自然语言处理的文档相似度识别方法及相关设备 | |
JP2010102564A (ja) | 感情特定装置、その方法、プログラム及び記録媒体 | |
CN114238689A (zh) | 视频生成方法、装置、电子设备、存储介质和程序产品 | |
US9910846B2 (en) | Conversion device and conversion method | |
KR20170085736A (ko) | 전자 출판물에 대한 정보를 생성하는 장치 및 방법 | |
JP6804913B2 (ja) | 表構造推定システムおよび方法 | |
JP6200392B2 (ja) | 情報提示装置および情報提示プログラム | |
US11868726B2 (en) | Named-entity extraction apparatus, method, and non-transitory computer readable storage medium | |
Putra et al. | The Implementation of Indonesian Stemming System for Indonesian Translation of the Quran |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180625 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190508 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190604 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190617 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6551026 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |