JP2021022386A - 情報処理装置、自然言語処理システム、制御方法、および制御プログラム - Google Patents
情報処理装置、自然言語処理システム、制御方法、および制御プログラム Download PDFInfo
- Publication number
- JP2021022386A JP2021022386A JP2020155307A JP2020155307A JP2021022386A JP 2021022386 A JP2021022386 A JP 2021022386A JP 2020155307 A JP2020155307 A JP 2020155307A JP 2020155307 A JP2020155307 A JP 2020155307A JP 2021022386 A JP2021022386 A JP 2021022386A
- Authority
- JP
- Japan
- Prior art keywords
- character
- language
- characters
- languages
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 22
- 238000003058 natural language processing Methods 0.000 title claims description 16
- 238000000034 method Methods 0.000 title claims description 13
- 230000006870 function Effects 0.000 claims description 13
- 238000012552 review Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 abstract description 17
- 238000004891 communication Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
Images
Abstract
Description
図1は、サーバ100の要部構成の一例を示すブロック図である。最初に、サーバ100の概要を説明する。
図1に例示されるように、サーバ100は、制御部110、記憶部120、および通信部130を備えてよい。
図2は、自然言語処理システム200の一例を模式的に示す模式図である。自然言語処理システム200は、例えば、サーバ100と、ユーザ端末210とを含んでよい。
図3は、サーバ100が実行する処理の一例を示すフローチャートである。まず、特定部101は、文書に含まれるすべての文字をユニコードで符号化する(S301)。次に、特定部101は、コードポイントから言語を特定できる固有文字に言語情報を付与し(S302)、制御部110が、当該文書に含まれるすべての文字の言語が特定されたか否かを判定する(S303)。
サーバ100は、コードポイントを参照するだけでは言語を特定不可能な文字(例えば、CJK統合漢字のような特殊漢字)であっても、当該言語を推定できる。したがって、サーバ100は、例えば、母集団に含まれる各文書の処理精度を高めることができる。
本開示の一態様は、上述した実施の形態及び変形例に限定されるものではなく変形可能であり、上記の構成は、実質的に同一の構成、同一の作用効果を奏する構成又は同一の目的を達成することができる構成で置き換えることができる。
サーバ100が備えた制御ブロック(特に、制御部110に含まれる各部)は、CPU(Central Processing Unit)などのコントローラ(プロセッサ)を用いてソフトウェアによって実現してもよい。すなわち、サーバ100は、各機能を実現するソフトウェアである制御プログラムの命令を実行するCPU、当該制御プログラム、および各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、当該制御プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記制御プログラムを上記記録媒体から読み取って実行することにより、本開示の一態様に係る目的の一例が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記制御プログラムは、当該制御プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。本開示の一態様は、上記制御プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
Claims (10)
- 複数の言語で共通して使用される第1の文字を取得する取得部と、
前記複数の言語のうちの1つの言語でのみ使用される第2の文字に基づいて、前記第1の文字が前記複数の言語のいずれの言語に属する文字かを推定する推定部とを備え、
前記推定部は、前記第1の文字の前後に位置する複数の文字から構成される文字列の中において、前記第2の文字が前記第1の文字の周辺に1つ以上存在する場合、前記第1の文字の言語は、前記第2の文字の言語と同一であると推定する情報処理装置。 - 前記取得部は、CJK統合漢字を前記第1の文字として取得し、
前記推定部は、前記第1の文字が、中国語、日本語、および韓国語のいずれの言語に属する漢字かを推定する請求項1に記載の情報処理装置。 - 前記第1の文字の言語が推定された後、文書に含まれる全ての文字の文字数に対して、前記言語に属する文字の文字数が占める数に基づく数値を出力する出力部をさらに備えた請求項1または2に記載の情報処理装置。
- 前記出力部は、前記数値を所定の値と比較した結果に応じて、前記文書の言語を特定する請求項3に記載の情報処理装置。
- 複数の自然言語処理アルゴリズムのうち、前記特定された言語に対応する自然言語処理アルゴリズムを選択する選択部をさらに備えた請求項4に記載の情報処理装置。
- 前記推定部は、前記推定した言語を示す言語情報を、前記第1の文字に付与する請求項1から5のいずれか一項に記載の情報処理装置。
- 前記取得部は、前記複数の言語にそれぞれ対応する複数の文字集合において識別情報が共通することにより、前記複数の言語に分類可能な文字を、前記第1の文字として取得する請求項1から6に記載の情報処理装置。
- 請求項1から7のいずれか一項に記載の情報処理装置と、
前記情報処理装置によって処理される文書を査読するレビュアが用いるユーザ端末とを含む自然言語処理システム。 - 複数の言語で共通して使用される第1の文字を取得する取得工程と、
前記複数の言語のうちの1つの言語でのみ使用される第2の文字に基づいて、前記第1の文字が前記複数の言語のいずれの言語に属する文字かを推定する推定工程とを含み、
前記推定工程においては、前記第1の文字の前後に位置する複数の文字から構成される文字列の中において、前記第2の文字が前記第1の文字の周辺に1つ以上存在する場合、前記第1の文字の言語は、前記第2の文字の言語と同一であると推定する情報処理装置の制御方法。 - 情報処理装置に、
複数の言語で共通して使用される第1の文字を取得する取得機能と、
前記複数の言語のうちの1つの言語でのみ使用される第2の文字に基づいて、前記第1の文字が前記複数の言語のいずれの言語に属する文字かを推定する推定機能とを実現し、
前記推定機能は、前記第1の文字の前後に位置する複数の文字から構成される文字列の中において、前記第2の文字が前記第1の文字の周辺に1つ以上存在する場合、前記第1の文字の言語は、前記第2の文字の言語と同一であると推定する制御プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020155307A JP2021022386A (ja) | 2020-09-16 | 2020-09-16 | 情報処理装置、自然言語処理システム、制御方法、および制御プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020155307A JP2021022386A (ja) | 2020-09-16 | 2020-09-16 | 情報処理装置、自然言語処理システム、制御方法、および制御プログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019137509A Division JP6781905B1 (ja) | 2019-07-26 | 2019-07-26 | 情報処理装置、自然言語処理システム、制御方法、および制御プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021022386A true JP2021022386A (ja) | 2021-02-18 |
JP2021022386A5 JP2021022386A5 (ja) | 2022-06-16 |
Family
ID=74573827
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020155307A Ceased JP2021022386A (ja) | 2020-09-16 | 2020-09-16 | 情報処理装置、自然言語処理システム、制御方法、および制御プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021022386A (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07262188A (ja) * | 1994-03-14 | 1995-10-13 | Internatl Business Mach Corp <Ibm> | 言語識別処理方法 |
JP2006092223A (ja) * | 2004-09-24 | 2006-04-06 | Sharp Corp | 携帯通信端末及び多言語表示制御方法 |
JP2014160252A (ja) * | 2007-08-30 | 2014-09-04 | Nec Corp | 電子機器、文字列表示方法、および文字列表示プログラム |
-
2020
- 2020-09-16 JP JP2020155307A patent/JP2021022386A/ja not_active Ceased
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07262188A (ja) * | 1994-03-14 | 1995-10-13 | Internatl Business Mach Corp <Ibm> | 言語識別処理方法 |
JP2006092223A (ja) * | 2004-09-24 | 2006-04-06 | Sharp Corp | 携帯通信端末及び多言語表示制御方法 |
JP2014160252A (ja) * | 2007-08-30 | 2014-09-04 | Nec Corp | 電子機器、文字列表示方法、および文字列表示プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107992596B (zh) | 一种文本聚类方法、装置、服务器和存储介质 | |
KR101326354B1 (ko) | 문자 변환 처리 장치, 기록 매체 및 방법 | |
WO2022156066A1 (zh) | 文字识别方法、装置、电子设备及存储介质 | |
US11734341B2 (en) | Information processing method, related device, and computer storage medium | |
US20150169676A1 (en) | Generating a Table of Contents for Unformatted Text | |
US20220358297A1 (en) | Method for human-machine dialogue, computing device and computer-readable storage medium | |
US11514910B2 (en) | Interactive system | |
JP5952441B2 (ja) | 秘密データを識別する方法、電子装置及びコンピュータ読み取り可能な記録媒体 | |
JP6781905B1 (ja) | 情報処理装置、自然言語処理システム、制御方法、および制御プログラム | |
EP3846075A1 (en) | Contextualized character recognition system | |
JP2021022386A (ja) | 情報処理装置、自然言語処理システム、制御方法、および制御プログラム | |
CN114757214B (zh) | 用于优化翻译模型的样本语料的选取方法、相关装置 | |
US20230177251A1 (en) | Method, device, and system for analyzing unstructured document | |
CN114265560A (zh) | 一种亿级合规指标业务数据的自规范存储系统 | |
CN114417856A (zh) | 文本的稀疏编码方法、装置及电子设备 | |
CN114444514A (zh) | 语义匹配模型训练、语义匹配方法及相关装置 | |
US10546061B2 (en) | Predicting terms by using model chunks | |
US20200125804A1 (en) | Non-transitory computer readable recording medium, semantic vector generation method, and semantic vector generation device | |
WO2015136692A1 (ja) | 電子イメージ文書編集システム | |
US11609957B2 (en) | Document processing device, method of controlling document processing device, and non-transitory computer-readable recording medium containing control program | |
JP6269953B2 (ja) | 単語分割装置、方法、及びプログラム | |
CN110929530B (zh) | 一种多语言垃圾文本的识别方法、装置和计算设备 | |
JP7357030B2 (ja) | 通信端末、プログラム、及び表示方法 | |
US20220374603A1 (en) | Method of determining location information, electronic device, and storage medium | |
Galfré et al. | Exploring Abstract Concepts for Image Privacy Prediction in Social Networks (Student Abstract) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220608 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220608 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230404 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230526 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230912 |
|
A045 | Written measure of dismissal of application [lapsed due to lack of payment] |
Free format text: JAPANESE INTERMEDIATE CODE: A045 Effective date: 20240130 |