JP2021022386A

JP2021022386A - 情報処理装置、自然言語処理システム、制御方法、および制御プログラム

Info

Publication number: JP2021022386A
Application number: JP2020155307A
Authority: JP
Inventors: 陵大田村; Ryota Tamura; 巧平岩; Takumi Hiraiwa
Original assignee: Fronteo Inc
Current assignee: Fronteo Inc
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2021-02-18

Abstract

【課題】文書の処理精度を高められる情報処理装置等を実現する。【解決手段】情報処理装置は、複数の言語で共通して使用される第１の文字を取得する取得部と、前記複数の言語のうちの１つの言語でのみ使用される第２の文字に基づいて、前記第１の文字が前記複数の言語のいずれの言語に属する文字かを推定する推定部とを備え、前記推定部は、前記第１の文字の前後に位置する複数の文字から構成される文字列の中において、前記第２の文字が前記第１の文字の周辺に１つ以上存在する場合、前記第１の文字の言語は、前記第２の文字の言語と同一であると推定する。【選択図】図１

Description

本開示は、情報処理装置等に関する。

下記特許文献１は、共通文字コードにより表現された文字列を、適切なフォントを用いて表示することができる文字処理装置に関する技術を開示している。

特開２００７−１７２３８７号公報（２００７年７月５日公開）

上記特許文献１に記載の文字処理装置は、上記文字列を適切なフォントで表示できるに過ぎない。

本開示の一態様は、例えば、文書の処理精度を高められる情報処理装置等を実現することを目的とする。

本開示の一態様に係る情報処理装置は、例えば、複数の言語で共通して使用される第１の文字を取得する取得部と、前記複数の言語のうちの１つの言語でのみ使用される第２の文字に基づいて、前記第１の文字が前記複数の言語のいずれの言語に属する文字かを推定する推定部とを備え、前記推定部は、前記第１の文字の前後に位置する複数の文字から構成される文字列の中において、前記第２の文字が前記第１の文字の周辺に１つ以上存在する場合、前記第１の文字の言語は、前記第２の文字の言語と同一であると推定してよい。

本開示の一態様に係る情報処理装置の制御方法は、例えば、複数の言語で共通して使用される第１の文字を取得する取得工程と、前記複数の言語のうちの１つの言語でのみ使用される第２の文字に基づいて、前記第１の文字が前記複数の言語のいずれの言語に属する文字かを推定する推定工程とを含み、前記推定工程においては、前記第１の文字の前後に位置する複数の文字から構成される文字列の中において、前記第２の文字が前記第１の文字の周辺に１つ以上存在する場合、前記第１の文字の言語は、前記第２の文字の言語と同一であると推定してよい。

本開示の一態様に係る制御プログラムは、例えば、情報処理装置に、複数の言語で共通して使用される第１の文字を取得する取得機能と、前記複数の言語のうちの１つの言語でのみ使用される第２の文字に基づいて、前記第１の文字が前記複数の言語のいずれの言語に属する文字かを推定する推定機能とを実現させ、前記推定機能は、前記第１の文字の前後に位置する複数の文字から構成される文字列の中において、前記第２の文字が前記第１の文字の周辺に１つ以上存在する場合、前記第１の文字の言語は、前記第２の文字の言語と同一であると推定してよい。

本開示の一態様に係るサーバの要部構成の一例を示すブロック図である。本開示の一態様に係る自然言語処理システムの一例を模式的に示す模式図である。上記サーバが実行する処理の一例を示すフローチャートである。上記サーバが実行する言語判定処理の一例を示すフローチャートである。

図１〜図４に基づいて、本開示の一態様を説明する。なお、図面については、同一又は同等の要素には同一の符号を付し、重複する説明は省略する。

（サーバ１００の概要）
図１は、サーバ１００の要部構成の一例を示すブロック図である。最初に、サーバ１００の概要を説明する。

サーバ１００は、例えば、自然言語で記載された複数の文書（以下では「母集団」と称する）を処理可能な情報処理装置であってよい。母集団に含まれる各文書は、例えば、複数の言語（例えば、日本語・中国語・韓国語・英語など）でそれぞれ記載されている。また、複数の言語でそれぞれ記載された複数の文章が、各文書に混在する場合がある。

上記複数の文章は、例えば、符号化文字集合の１つであるユニコード（Unicode）に則って符号化された文字をそれぞれ含んでいる。ここで、ユニコードでは、言語ごとに文字を分類した文字集合を識別可能なコードポイント（識別情報）が、各文字に割り当てられている。したがって、当該コードポイントから文字が属する文字集合を一意に特定できる場合、サーバ１００は、当該特定された文字集合から当該文字の言語を特定できる。

しかし、例えば「ＣＪＫ統合漢字」と呼ばれる特殊な漢字（以下では「特殊漢字」と称する）は、中国語・日本語・韓国語のいずれの言語に属する漢字であるかを、サーバ１００は特定できない。特殊漢字は、２つ以上の言語で共通して使用される漢字であることから、中国語・日本語・韓国語にそれぞれ対応する複数の文字集合のうち、少なくとも２つの文字集合で共通するコードポイントが割り当てられており、いずれの文字集合に属するかが一意に特定できないからである。そして、サーバ１００が処理すべき文書に言語不明の文字が含まれている場合、当該処理の精度が劣化するおそれが考えられる。

そこで、サーバ１００は、例えば、複数の言語（例えば、中国語・日本語・韓国語）で共通して使用される第１の文字（例えば、特殊漢字）を取得し、そのうちの１つの言語でのみ使用される第２の文字（例えば、ひらがな）に基づいて、第１の文字が複数の言語のいずれの言語に属する文字かを推定する。ここで、サーバ１００は、例えば、上記第１の文字の前後に位置する複数の文字から構成される文字列の中において、第２の文字が当該第１の文字の周辺に１つ以上存在する場合、当該第１の文字の言語は、当該第２の文字の言語と同一であると推定する。

これにより、サーバ１００は、コードポイントを参照するだけでは言語を特定不可能な文字（例えば、ＣＪＫ統合漢字のような特殊漢字）であっても、当該言語を推定できる。したがって、サーバ１００は、例えば、母集団に含まれる各文書の処理精度を高めることができる。

（サーバ１００の構成）
図１に例示されるように、サーバ１００は、制御部１１０、記憶部１２０、および通信部１３０を備えてよい。

制御部１１０は、サーバ１００の各種機能を統括的に制御する機能を持ち、例えば、ＣＰＵ（Central Processing Unit）などのプロセッサによって実現されてよい。制御部１１０は、特定部１０１、取得部１０２、判定部１０３、推定部１０４、出力部１０５、および選択部１０６を含んでよい。そして、制御部１１０は、サーバ１００の外部から得られた操作情報に基づいて各部を機能させてよい。なお、制御部１１０は、文書に含まれるすべての文字の言語が特定されたか否かを判定してよい。

特定部１０１は、例えば、文字に付与されたコードポイント（識別情報）を参照し、当該文字が使用される言語を特定する。

具体的には、特定部１０１は、例えば、記憶部１２０に格納された母集団から文書を１つ取り出す。このとき、特定部１０１は、当該文書に含まれる文字を、ユニコードで符号化してよい。そして、特定部１０１は、当該文書に含まれる複数の文字にそれぞれ割り当てられたコードポイントを先頭から順次参照し、１つの文字集合（言語に固有の文字集合）に属する固有文字に対して言語情報（言語を識別可能な情報）を付与してよい。

ここで、固有文字（第２の文字）は、例えば、コードポイントから文字集合が一意に特定可能な文字である。例えば、固有文字は、「ひらがな」（コードポイント：U+3041〜U+309F）、「カタカナ」（U+30A0〜U+30FF）などの日本語に固有の文字集合（第２の文字集合）に属する文字、もしくは、「働」（U+50CD）、「畑」（U+7551）、「込」（U+8FBC）、「峠」（U+5CE0）などの日本語にのみ存在する漢字、または、中国語にのみ存在する漢字（例えば、コードポイントがU+4E1A、U+6003、U+83EE、U+6030となる漢字）である。

これにより、サーバ１００は、コードポイントから一意に言語を特定できる文字に、言語情報を付与できる。したがって、サーバ１００は、例えば、当該言語情報を参照するだけで各文字の言語を取得できる。

取得部１０２は、複数の言語で共通して使用される特殊漢字（第１の文字）を取得してよい。すなわち、取得部１０２は、例えば、複数の文書に含まれる１つの文書から、複数の言語に対応する共通文字集合（第１の文字集合、例えば、「中国語の漢字」、「日本語の漢字」などのＣＪＫ統合漢字を含む文字集合）に属する特殊漢字を取得してよい。また、取得部１０２は、複数の言語にそれぞれ対応する複数の文字集合においてコードポイントが共通することにより、当該複数の言語に分類可能な文字（例えば、ＣＪＫ統合漢字）を、特殊漢字として取得してよい。

上記ＣＪＫ統合漢字の例として、「丙」（コードポイント：U+4E19）、「急」（U+6025）、「華」（U+83EF）、「怯」（U+602F）などが挙げられる。これらの漢字には、中国語の漢字に対応する文字集合と、日本語の漢字に対応する文字集合とに共通するコードポイントが割り当てられている。

言い換えれば、例えば、「日本語の漢字」（第１の文字集合）は「中国語の漢字」（他の文字集合）と複数の言語に対応した共通部分を有し、ＣＪＫ統合漢字などの特殊漢字（第１の文字）は、当該共通部分に属することにより、当該複数の言語のうちのいずれの言語でも使用され得る文字である。なお、中国常用漢字は約2500字あり、日本の常用漢字は2136字ある。そのうち、約1683字（日本語常用漢字の約79％）が特殊漢字に相当する。

判定部１０３は、特殊漢字の前後に位置する複数の文字から構成される文字列の中において、固有文字が特殊漢字の周辺に１つ以上存在するか否かを判定してよい。ここで、特殊漢字の周辺は、例えば、当該特殊漢字を中心とする前後Ｎ文字（Ｎは任意の整数であってよい）のうち、前方（文字の並びの順方向）に存在する１〜Ｎ文字と、後方（文字の並びの逆方向）に存在する１〜Ｎ文字との少なくとも一方または組み合わせであってよい。

具体的に、判定部１０３は、文書の先頭から文字を走査し、特定部１０１によって言語情報が付与されなかった文字を、特殊漢字として認識してよい。そして、判定部１０３は、当該特殊漢字の前後Ｎ文字に存在する複数の文字を上記文字列として抽出し、当該文字列に含まれる固有文字の文字数を数えてよい。

例えば、Ｎ＝６として、判定部１０３が「今日は晴れです」という文字列に対して上記判定を実行する場合を説明する。この場合、判定部１０３は、「晴」（コードポイント：U+6674）というＣＪＫ統合漢字に言語情報が付与されていないことを認識する。次に、判定部１０３は、「晴」を中心として前後３文字（前方に存在するＮ／２文字と、後方に存在するＮ／２文字との組み合わせ）に存在する「今日は」および「れです」を取り出す。ここで、「は」および「れです」は、それぞれ日本語に固有の文字集合（ひらがな）に属する固有文字であるため、判定部１０３は、「晴」という特殊漢字を含む文字列「今日は晴れです」に、固有文字が１つ以上（この場合は４つ）含まれていると判定する。

なお、判定部１０３が上記文字数を数えるとき、英数字・記号を数える対象から外してよい。英数字・記号は、中国語・日本語・韓国語などのアジア言語においても使用される文字であり、特殊漢字の言語推定の精度向上に寄与しない場合が多いからである。このように、英数字・記号をスキップして数えることにより、サーバ１００は、当該言語推定の精度を向上させることができる。

推定部１０４は、複数の言語のうちの１つの言語でのみ使用される固有文字に基づいて、特殊漢字が当該複数の言語（例えば、中国語・日本語・韓国語）のいずれの言語に属する文字かを推定してよい。このとき、推定部１０４は、判定部１０３によって上記文字列に固有文字が１つ以上含まれていると判定された場合、当該特殊漢字の言語は、当該固有文字の言語と同一であると推定してよい。

前述した例によれば、判定部１０３は、「晴」という特殊漢字を含む文字列「今日は晴れです」に対して、固有文字が１つ以上含まれていると判定する。そのため、推定部１０４は、「晴」という文字の言語が「は」および「れです」という固有文字の言語（日本語）と同一（すなわち、「日本語の漢字」）であると推定してよい。

このとき、推定部１０４は、推定した言語を示す言語情報を特殊漢字に付与してよい。これにより、サーバ１００は、特殊漢字の言語を特定できる。したがって、サーバ１００は、例えば、母集団に含まれる各文書の処理精度を高めることができる。

なお、上記文字列に固有文字が１つも含まれない場合、推定部１０４は、上記特殊漢字の言語を出現可能性の高い言語としてよい。例えば、当該特殊漢字の前後Ｎ文字がすべて漢字である場合、推定部１０４は、例えば、当該特殊漢字の言語を中国語とする。

あるいは、推定部１０４は、文字列に含まれる文字の総数に対して固有文字（または特殊漢字）が占める割合から、上記特殊漢字の言語を推定してもよい。例えば、「今日は晴れです」という７文字の文字列において、「晴」を中心とする前後３文字には、４つの固有文字が含まれている。そのため、推定部１０４は、上記割合を0.571（＝４÷７）と計算する。そして、推定部１０４は、当該割合が所定のしきい値（例えば、0.5）を超過している場合、当該特殊漢字の言語は、当該固有文字の言語と同一であると推定してよい。

または、特殊漢字の前後Ｎ文字に存在する複数の文字が文字列として抽出された場合、推定部１０４は、例えば、当該特殊漢字の左右に存在する１文字目（すなわち、特殊漢字に隣接する２つの文字）が漢字か否かを判定する。

同様に、推定部１０４は、２文字目、３文字目…Ｎ文字目が漢字か否かを判定する。推定部１０４は、例えば、当該判定の過程で漢字が連続して出現するほど、当該特殊漢字が中国語である確率を上げていく。そして、当該確率が所定のしきい値（例えば、0.5）を超過した場合、当該特殊漢字の言語は、中国語であると推定してよい。すなわち、推定部１０４は、前記複数の言語で共通して使用される文字が前記文字列において連続するほど、前記第１の文字が前記複数の言語に含まれる１つの言語に属する確率を上げる。

これにより、サーバ１００は、特殊漢字の言語を精度よく推定できる。したがって、サーバ１００は、例えば、母集団に含まれる各文書の処理精度を高めることができる。

出力部１０５は、特殊漢字の言語が推定された後、文書に含まれる全ての文字の文字数に対して、当該言語に属する文字の文字数が占める数に基づく数値を出力してよい。

例えば、１つの文書に中国語・日本語・韓国語・英語の文章が混在する場合を考える。この場合、出力部１０５は、特定部１０１および推定部１０４によって付与された言語情報を参照し、各言語の文字数を数える。そして、出力部１０５は、文書に含まれるすべての文字の言語に対して、日本語が占める割合（例えば、５０％など）を、上記数値として出力してよい。同様に、出力部１０５は、中国語が占める割合、韓国語が占める割合、英語が占める割合をそれぞれ出力してよい。なお、上記数値は文字数であってもよい。

これにより、サーバ１００は、例えば、各文書に含まれる言語の割合を計算できる。したがって、サーバ１００は、例えば、ある文書をレビュアに査読させる場合（図２を参照して後述する）、最も高い割合を占める言語に習熟したレビュアに当該文書の査読を割り当てることができ、査読の効率を高めることができる。

このとき、出力部１０５は、上記数値を所定の値と比較した結果に応じて、文書の言語を特定してよい。または、出力部１０５は、上記割合が最も高かった言語を当該文書の言語として特定してもよい。あるいは、出力部１０５は、各言語に対して事前に定められた所定のしきい値と当該割合とを比較し、当該割合が当該所定のしきい値を超過した言語を、当該文書の言語として特定してもよい。このとき、複数の言語（例えば、日本語・英語）が特定される場合があるため、出力部１０５は、当該文書は当該複数の言語が混在した文書と特定してよい。

すなわち、サーバ１００は、例えば、前記複数の言語でそれぞれ記載された複数の文章が、前記第１の文字を含む文書に混在するとき、前記第１の文字の言語が推定された後、所定の言語で使用される文字が文書に含まれる数に基づく数値から、前記文書の言語を特定する出力部をさらに備えてよい。したがって、サーバ１００は、例えば、ある文書をレビュアに査読させる場合、特定された言語に習熟したレビュアに当該文書の査読を割り当てることができ、査読の効率を高めることができる。

選択部１０６は、複数の自然言語処理アルゴリズムのうち、出力部１０５によって特定された言語に対応する自然言語処理アルゴリズムを選択してよい。ここで、複数の自然言語処理アルゴリズムは、例えば、英語、中国語、日本語、韓国語など、複数の言語にそれぞれ対応するように、各言語の処理に特化したアルゴリズムであってよい。

選択部１０６は、例えば、ある文書が日本語で記載されていると特定された場合、日本語に特化した自然言語処理アルゴリズムを選択し、サーバ１００は、当該自然言語処理アルゴリズムを用いて当該文書を処理してよい。したがって、サーバ１００は、例えば、母集団に含まれる各文書の処理精度をさらに高めることができる。

なお、制御部１１０に含まれる各部は、例えば、サーバ１００が実行する処理の目的等に応じて、任意に組み替えられてよい。例えば、制御部１１０に含まれる各部の一部または全部を含む場合も含まない場合も、適宜設計可能な実施形態の変形例としてすべて本開示の範囲に含まれる。

記憶部１２０は、任意の情報を格納可能な記憶機器であり、例えば、ハードディスク、ＳＳＤ（Silicon State Drive）、半導体メモリ、ＤＶＤなどで構成されてよい。

通信部１３０は、例えば、ユーザ端末２１０（図２参照）と任意のデータを送受信してよい。なお、通信部１３０は、例えば、所定の通信方式にしたがうネットワークを介して外部と通信可能なハードウェアであってよい。外部の機器との通信を実現する本質的な機能を備えていればよく、通信回線、通信方式、通信媒体などは限定されない。

（自然言語処理システム２００の構成）
図２は、自然言語処理システム２００の一例を模式的に示す模式図である。自然言語処理システム２００は、例えば、サーバ１００と、ユーザ端末２１０とを含んでよい。

ユーザ端末２１０は、レビュアがサーバ１００によって処理される文書を査読するための端末である。ユーザ端末２１０は、サーバ１００と通信可能に接続されたコンピュータでありさえすればよく、例えば、デスクトップパソコン、スマートフォン、タブレット端末などであってよい。

サーバ１００は、母集団に含まれる複数の文書（言語特定されていてもよいし、されていなくともよい）をランダムに抽出し、当該複数の文書をユーザ端末２１０に送信してよい。そして、ユーザ端末２１０は、例えば、上記レビュアに文書を１つずつ提示する。

レビュアは、例えば、提示された文書を所定の基準に則って査読し、当該査読した結果（例えば、当該文書が、ある事象に関係するか否かを示す識別結果）をユーザ端末２１０に入力する。そして、当該ユーザ端末２１０は、当該査読した結果をサーバ１００に送信してよい。

サーバ１００は、上記査読した結果に基づいて母集団に含まれる複数の文書にそれぞれスコアを付ける。このとき、サーバ１００は、例えば、上記所定の基準に合致する文書ほど大きいスコアが付くように、当該複数の文書にスコアを付ける。そして、サーバ１００は、当該スコアにしたがって当該複数の文書を降順に並べ替えてよい。

これにより、自然言語処理システム２００は、例えば、ユーザ端末２１０に上記複数の文書を一覧可能に表示させたとき、上記所定の基準に合致する文書ほど目立つ位置に表示させることができる。したがって、自然言語処理システム２００は、母集団に含まれる他の文書（例えば、上記査読した文書とは異なる文書）をレビュアに査読させるとき、（例えば、スコアの高い順に査読させることによって）効率よく査読させることができる。

（サーバ１００が実行する処理）
図３は、サーバ１００が実行する処理の一例を示すフローチャートである。まず、特定部１０１は、文書に含まれるすべての文字をユニコードで符号化する（Ｓ３０１）。次に、特定部１０１は、コードポイントから言語を特定できる固有文字に言語情報を付与し（Ｓ３０２）、制御部１１０が、当該文書に含まれるすべての文字の言語が特定されたか否かを判定する（Ｓ３０３）。

特定されたと判定された場合（Ｓ３０３においてＹＥＳ）、出力部１０５は、各文字に付与された言語情報を参照し、各言語の文字数を数える（Ｓ３０４）。最後に、出力部１０５は、例えば、数えた文字数を言語ごとに出力する（Ｓ３０５）。すなわち、出力部１０５は、所定の言語で使用される文字が文書に含まれる数に基づく数値を出力する。

特定されていないと判定された場合（Ｓ３０３においてＮＯ）、制御部１１０は、言語判定処理を実行する（Ｓ３０６）。

図４は、サーバ１００が実行する言語判定処理の一例を示すフローチャートである。まず、判定部１０３は、当該特殊漢字の前後Ｎ文字に存在する複数の文字を上記文字列として取り出し、当該文字列に含まれる固有文字の文字数を数えてよい。

次に、判定部１０３は、言語が特定されていない特殊漢字を中心として、前後Ｎ文字を文字列として抽出する（Ｓ４０１）。このとき、判定部１０３は、例えば、抽出した文字列に含まれる固有文字の文字数を数えてよい。そして、判定部１０３は、当該前後Ｎ文字のなかに言語が特定された文字（固有文字）が１つ以上含まれているか否かを判定する（Ｓ４０２）。

含まれていると判定された場合（Ｓ４０２においてＹＥＳ）、推定部１０４は、上記中心とした文字に上記言語と同じ言語情報を付与する（Ｓ４０３）。そして、推定部１０４は、推定した言語を示す言語情報を特殊漢字に付与する。

含まれていないと判定された場合（Ｓ４０２においてＮＯ）、推定部１０４は、例えば、上記中心とした文字に出現確率の高い言語情報を付与する（Ｓ４０４）。例えば、推定部１０４は、上記特殊漢字の言語を中国語と推定してよい。

（サーバ１００が奏する効果）
サーバ１００は、コードポイントを参照するだけでは言語を特定不可能な文字（例えば、ＣＪＫ統合漢字のような特殊漢字）であっても、当該言語を推定できる。したがって、サーバ１００は、例えば、母集団に含まれる各文書の処理精度を高めることができる。

（付記事項）
本開示の一態様は、上述した実施の形態及び変形例に限定されるものではなく変形可能であり、上記の構成は、実質的に同一の構成、同一の作用効果を奏する構成又は同一の目的を達成することができる構成で置き換えることができる。

（ソフトウェアによる実現例）
サーバ１００が備えた制御ブロック（特に、制御部１１０に含まれる各部）は、ＣＰＵ（Central Processing Unit）などのコントローラ（プロセッサ）を用いてソフトウェアによって実現してもよい。すなわち、サーバ１００は、各機能を実現するソフトウェアである制御プログラムの命令を実行するＣＰＵ、当該制御プログラム、および各種データがコンピュータ（またはＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）または記憶装置（これらを「記録媒体」と称する）、当該制御プログラムを展開するＲＡＭ（Random Access Memory）などを備えている。そして、コンピュータ（またはＣＰＵ）が上記制御プログラムを上記記録媒体から読み取って実行することにより、本開示の一態様に係る目的の一例が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記制御プログラムは、当該制御プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。本開示の一態様は、上記制御プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

なお、上記制御プログラムは、任意のプログラミング言語で実装できる。例えば、当該制御プログラムは、ActionScript、JavaScript（登録商標）などのスクリプト言語、Objective-C、Java（登録商標）などのオブジェクト指向プログラミング言語、HTML5などのマークアップ言語などを用いて実装できる。また、当該制御プログラムによって実現される各機能を実現する各部を備えた情報処理端末（例えば、スマートフォン、パーソナルコンピュータ）と、上記各機能とは異なる残りの機能を実現する各部を備えたサーバも、本開示の範疇に入る。

１００：サーバ（情報処理装置）、１０１：特定部、１０２：取得部、１０３：判定部、１０４：推定部、１０５：出力部、１０６：選択部、１１０：制御部、１２０：記憶部、１３０：通信部、２００：自然言語処理システム、２１０：ユーザ端末

Claims

複数の言語で共通して使用される第１の文字を取得する取得部と、
前記複数の言語のうちの１つの言語でのみ使用される第２の文字に基づいて、前記第１の文字が前記複数の言語のいずれの言語に属する文字かを推定する推定部とを備え、
前記推定部は、前記第１の文字の前後に位置する複数の文字から構成される文字列の中において、前記第２の文字が前記第１の文字の周辺に１つ以上存在する場合、前記第１の文字の言語は、前記第２の文字の言語と同一であると推定する情報処理装置。
前記取得部は、ＣＪＫ統合漢字を前記第１の文字として取得し、
前記推定部は、前記第１の文字が、中国語、日本語、および韓国語のいずれの言語に属する漢字かを推定する請求項１に記載の情報処理装置。
前記第１の文字の言語が推定された後、文書に含まれる全ての文字の文字数に対して、前記言語に属する文字の文字数が占める数に基づく数値を出力する出力部をさらに備えた請求項１または２に記載の情報処理装置。
前記出力部は、前記数値を所定の値と比較した結果に応じて、前記文書の言語を特定する請求項３に記載の情報処理装置。
複数の自然言語処理アルゴリズムのうち、前記特定された言語に対応する自然言語処理アルゴリズムを選択する選択部をさらに備えた請求項４に記載の情報処理装置。
前記推定部は、前記推定した言語を示す言語情報を、前記第１の文字に付与する請求項１から５のいずれか一項に記載の情報処理装置。
前記取得部は、前記複数の言語にそれぞれ対応する複数の文字集合において識別情報が共通することにより、前記複数の言語に分類可能な文字を、前記第１の文字として取得する請求項１から６に記載の情報処理装置。
請求項１から７のいずれか一項に記載の情報処理装置と、
前記情報処理装置によって処理される文書を査読するレビュアが用いるユーザ端末とを含む自然言語処理システム。
複数の言語で共通して使用される第１の文字を取得する取得工程と、
前記複数の言語のうちの１つの言語でのみ使用される第２の文字に基づいて、前記第１の文字が前記複数の言語のいずれの言語に属する文字かを推定する推定工程とを含み、
前記推定工程においては、前記第１の文字の前後に位置する複数の文字から構成される文字列の中において、前記第２の文字が前記第１の文字の周辺に１つ以上存在する場合、前記第１の文字の言語は、前記第２の文字の言語と同一であると推定する情報処理装置の制御方法。
情報処理装置に、
複数の言語で共通して使用される第１の文字を取得する取得機能と、
前記複数の言語のうちの１つの言語でのみ使用される第２の文字に基づいて、前記第１の文字が前記複数の言語のいずれの言語に属する文字かを推定する推定機能とを実現し、
前記推定機能は、前記第１の文字の前後に位置する複数の文字から構成される文字列の中において、前記第２の文字が前記第１の文字の周辺に１つ以上存在する場合、前記第１の文字の言語は、前記第２の文字の言語と同一であると推定する制御プログラム。