JP2019159814A - 情報処理装置、情報処理方法及びプログラム - Google Patents
情報処理装置、情報処理方法及びプログラム Download PDFInfo
- Publication number
- JP2019159814A JP2019159814A JP2018045751A JP2018045751A JP2019159814A JP 2019159814 A JP2019159814 A JP 2019159814A JP 2018045751 A JP2018045751 A JP 2018045751A JP 2018045751 A JP2018045751 A JP 2018045751A JP 2019159814 A JP2019159814 A JP 2019159814A
- Authority
- JP
- Japan
- Prior art keywords
- target sentence
- vocabulary
- vocabulary list
- characters
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
(実施の形態1)
図1は、情報処理システムの構成例を示す模式図である。本実施の形態では、検出対象である文章(対象文)から、ユーザが誤って入力したと推定される誤り部分の候補を検出する情報処理システムについて説明する。情報処理システムは、情報処理装置1及び端末2を含む。各装置は、インターネット等のネットワークNを介して通信接続されている。
制御部11は、一又は複数のCPU(Central Processing Unit)、MPU(Micro-Processing Unit)、GPU(Graphics Processing Unit)等の演算処理装置を有し、補助記憶部14に記憶されたプログラムPを読み出して実行することにより、サーバ1に係る種々の情報処理、制御処理等を行う。主記憶部12は、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)、フラッシュメモリ等の一時記憶領域であり、制御部11が演算処理を実行するために必要なデータを一時的に記憶する。通信部13は、通信に関する処理を行うための処理回路等を含み、端末2等と情報の送受信を行う。
なお、正規化する際に用いる重みなどの値は、場合によって適宜変更される。また、以下の説明では出現頻度を正規化したスコア(パラメータ)に基づき一連の処理を行うものとするが、例えばサーバ1は正規化していない出現頻度そのものをスコアとして用いても良く、出現頻度に応じたパラメータに基づいて一連の処理を行うことができれば良い。
例えばサーバ1は、端末2を介してユーザから対象文を取得する。対象文を取得した場合、サーバ1は語彙リスト141を参照して、対象文をサブワード単位に分割する。図5の上段に示す例では、サーバ1は、「骨転移を認めない」という文章を、「骨転移」及び「を認めない」の二つのサブワードに分割している。例えばサーバ1は、語彙リスト141にサブワードと対応付けて格納されているスコアを参照して、対象文全体でのスコアの総和が最大化するように対象文を分割する。例えば上記の文章では、「骨転移」の文字列を「骨」及び「転移」に分割することも考えられるが、「骨」及び「転移」とした場合よりも「骨転移」とした場合にスコアが高いため、サーバ1は、「骨転移」の文字列単位で対象文を分割する。なお、サーバ1は、語彙リスト141に登録されていない未登録語に関しては、一文字ずつ分割する。
サーバ1の制御部11は、学習用のサンプル文書群を取得する(ステップS11)。制御部11は、取得したサンプル文書を文字単位に分割する(ステップS12)。制御部11は、分割した全ての文字をサブワードとして語彙リスト141に登録する(ステップS13)。
サーバ1の制御部11は、端末2から対象文を取得する(ステップS31)。制御部11は語彙リスト141を参照して、語彙リスト141に格納されているサブワード毎に対象文を分割する(ステップS32)。具体的には、制御部11は、語彙リスト141に格納されている各サブワードのスコアを参照して、各サブワードの出現頻度に係るスコアの総和が対象文全体で最大化するように対象文を分割する。
本実施の形態では、サーバ1が文章の属性に応じて複数の語彙リスト141を生成しておき、対象文の属性に応じて異なる語彙リスト141を用いて誤り候補を検出する形態について述べる。なお、実施の形態1と重複する内容については同一の符号を付して説明を省略する。
図8は、実施の形態2に係るサーバ1の構成例を示すブロック図である。本実施の形態においてサーバ1の補助記憶部14は、ユーザDB142を記憶している。ユーザDB142は、各ユーザの情報を記憶したデータベースである。
サーバ1の制御部11は、端末2を介してユーザから対象文を取得する(ステップS201)。制御部11は、取得した対象文の属性を判定し、判定した属性に応じて語彙リスト141を選択する(ステップS202)。例えば制御部11は、ステップS201で端末2と通信を行った場合のユーザのアカウント情報からユーザの所属を判別し、対象文の属性を判定する。また、例えば制御部11は、取得した対象文に対して形態素解析を行い、記載されている語句から文章の属性を判定するようにしてもよい。このように、対象文の属性を判定する方法は特に限定されない。
図11は、上述した形態のサーバ1の動作を示す機能ブロック図である。制御部11がプログラムPを実行することにより、サーバ1は以下のように動作する。
記憶部111は、複数の文書を学習して生成された語彙リスト141を記憶する。取得部112は、対象文を取得する。対象文分割部113は、前記対象文を、前記語彙リスト141に登録されている語彙毎に分割する。推定部114は、前記対象文において分割された連続する複数の前記語彙の文字数及び/又は文字種のパターンに応じて、前記複数の語彙を誤り部分と推定する。出力部115は、推定結果を出力する。
11 制御部
12 主記憶部
13 通信部
14 補助記憶部
P プログラム
141 語彙リスト
142 ユーザDB
Claims (9)
- 複数の文書を学習して生成された語彙リストを記憶する記憶部と、
対象文を取得する取得部と、
前記対象文を、前記語彙リストに登録されている語彙毎に分割する対象文分割部と、
前記対象文において分割された連続する複数の前記語彙の文字数及び/又は文字種のパターンに応じて、前記複数の語彙を誤り部分と推定する推定部と、
推定結果を出力する出力部と
を備えることを特徴とする情報処理装置。 - 前記文書を、所定単位の文字又は文字列毎に分割する文書分割部と、
前記文書における前記文字又は文字列の出現頻度に応じて、該文字又は文字列を前記語彙リストに登録する登録部と
を備えることを特徴とする請求項1に記載の情報処理装置。 - 前記文書分割部は、前記文書を文字毎に分割し、
前記登録部は、
分割した前記文字を前記語彙リストに登録し、
前記文書において隣り合う二文字の前記文字を連結した文字列を、前記出現頻度に応じて前記語彙リストに登録し、
前記語彙リストに登録済みの前記文字又は文字列のうち、隣り合う二つの前記文字又は文字列を連結した文字列を、前記出現頻度に応じて前記語彙リストに登録する
ことを特徴とする請求項2に記載の情報処理装置。 - 前記登録部は、前記文字又は文字列と対応付けて、前記出現頻度に応じたパラメータを前記語彙リストに登録し、
前記対象文分割部は、前記語彙リストを参照して、前記対象文全体において前記文字又は文字列夫々の前記パラメータの総和が最大化するように前記対象文を分割する
ことを特徴とする請求項2又は3に記載の情報処理装置。 - 前記登録部は、前記文書の属性に応じて複数の前記語彙リストを生成し、
前記対象文分割部は、前記対象文の属性に応じた前記語彙リストを参照して、前記対象文を分割する
ことを特徴とする請求項2〜4のいずれか1項に記載の情報処理装置。 - 前記推定部は、前記語彙が連続して出現する回数に応じて、前記誤り部分を推定する
ことを特徴とする請求項1〜5のいずれか1項に記載の情報処理装置。 - ユーザから、前記推定結果が適正であったか否かを示す応答を受け付ける受付部と、
前記推定結果が適正でない旨の応答を受け付けた場合、前記誤り部分に相当する文字列を前記語彙リストに登録する第2登録部と
を備えることを特徴とする請求項1〜6のいずれか1項に記載の情報処理装置。 - 対象文を取得し、
複数の文書を学習して生成された語彙リストを参照して、前記対象文を、前記語彙リストに登録されている語彙毎に分割し、
前記対象文において分割された連続する複数の前記語彙の文字数及び/又は文字種のパターンに応じて、前記複数の語彙を誤り部分と推定し、
推定結果を出力する
処理をコンピュータに実行させることを特徴とする情報処理方法。 - 対象文を取得し、
複数の文書を学習して生成された語彙リストを参照して、前記対象文を、前記語彙リストに登録されている語彙毎に分割し、
前記対象文において分割された連続する複数の前記語彙の文字数及び/又は文字種のパターンに応じて、前記複数の語彙を誤り部分と推定し、
推定結果を出力する
処理をコンピュータに実行させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018045751A JP7040155B2 (ja) | 2018-03-13 | 2018-03-13 | 情報処理装置、情報処理方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018045751A JP7040155B2 (ja) | 2018-03-13 | 2018-03-13 | 情報処理装置、情報処理方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019159814A true JP2019159814A (ja) | 2019-09-19 |
JP7040155B2 JP7040155B2 (ja) | 2022-03-23 |
Family
ID=67997023
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018045751A Active JP7040155B2 (ja) | 2018-03-13 | 2018-03-13 | 情報処理装置、情報処理方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7040155B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111813923A (zh) * | 2019-11-29 | 2020-10-23 | 北京嘀嘀无限科技发展有限公司 | 文本摘要方法、电子设备及存储介质 |
DE112020004147T5 (de) | 2019-09-02 | 2022-05-19 | Kawasaki Motors, Ltd. | Luftfilter mit Drosselventil |
CN115130472A (zh) * | 2022-08-31 | 2022-09-30 | 北京澜舟科技有限公司 | 一种基于bpe的子词分割方法、系统及可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09325962A (ja) * | 1996-04-05 | 1997-12-16 | Fujitsu Ltd | 文書校正装置およびプログラム記憶媒体 |
JP2002342321A (ja) * | 2001-05-17 | 2002-11-29 | Ricoh Co Ltd | 用語抽出装置と用語抽出方法及びそのプログラムを格納した記憶媒体 |
-
2018
- 2018-03-13 JP JP2018045751A patent/JP7040155B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09325962A (ja) * | 1996-04-05 | 1997-12-16 | Fujitsu Ltd | 文書校正装置およびプログラム記憶媒体 |
JP2002342321A (ja) * | 2001-05-17 | 2002-11-29 | Ricoh Co Ltd | 用語抽出装置と用語抽出方法及びそのプログラムを格納した記憶媒体 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE112020004147T5 (de) | 2019-09-02 | 2022-05-19 | Kawasaki Motors, Ltd. | Luftfilter mit Drosselventil |
CN111813923A (zh) * | 2019-11-29 | 2020-10-23 | 北京嘀嘀无限科技发展有限公司 | 文本摘要方法、电子设备及存储介质 |
CN111813923B (zh) * | 2019-11-29 | 2024-05-03 | 北京嘀嘀无限科技发展有限公司 | 文本摘要方法、电子设备及存储介质 |
CN115130472A (zh) * | 2022-08-31 | 2022-09-30 | 北京澜舟科技有限公司 | 一种基于bpe的子词分割方法、系统及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP7040155B2 (ja) | 2022-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4301515B2 (ja) | 文章表示方法、情報処理装置、情報処理システム、プログラム | |
US8380488B1 (en) | Identifying a property of a document | |
JP4652737B2 (ja) | 単語境界確率推定装置及び方法、確率的言語モデル構築装置及び方法、仮名漢字変換装置及び方法、並びに、未知語モデルの構築方法、 | |
US7983903B2 (en) | Mining bilingual dictionaries from monolingual web pages | |
US8364470B2 (en) | Text analysis method for finding acronyms | |
US10242296B2 (en) | Method and device for realizing chinese character input based on uncertainty information | |
CN102982021A (zh) | 用于消除语言转换中的多个读法的歧义的方法 | |
CN110222330B (zh) | 语义识别方法及装置、存储介质、计算机设备 | |
US10963717B1 (en) | Auto-correction of pattern defined strings | |
CN112287680B (zh) | 一种问诊信息的实体抽取方法、装置、设备及存储介质 | |
CN111090641A (zh) | 数据处理方法及装置、电子设备、存储介质 | |
JP7040155B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN112784009B (zh) | 一种主题词挖掘方法、装置、电子设备及存储介质 | |
US8805095B2 (en) | Analysing character strings | |
JP2019204214A (ja) | 学習装置、学習方法、プログラム及び推定装置 | |
JP6145059B2 (ja) | モデル学習装置、形態素解析装置、及び方法 | |
Uthayamoorthy et al. | Ddspell-a data driven spell checker and suggestion generator for the tamil language | |
CN111046627A (zh) | 一种中文文字显示方法及系统 | |
US20230281392A1 (en) | Computer-readable recording medium storing computer program, machine learning method, and natural language processing apparatus | |
JP6495124B2 (ja) | 用語意味コード判定装置、用語意味コード判定モデル学習装置、方法、及びプログラム | |
WO2021107006A1 (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN112883717A (zh) | 一种错别字检测方法及装置 | |
JP5739352B2 (ja) | 辞書生成装置、文書ラベル判定システム及びコンピュータプログラム | |
CN116680419B (zh) | 一种多源数据映射关联细粒度不良信息检测方法 | |
WO2007041328A1 (en) | Detecting segmentation errors in an annotated corpus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210126 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220121 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220208 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220221 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7040155 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |