JP2021051613A - 自然言語処理において使用される辞書を作成する方法およびシステム - Google Patents

自然言語処理において使用される辞書を作成する方法およびシステム Download PDF

Info

Publication number
JP2021051613A
JP2021051613A JP2019174797A JP2019174797A JP2021051613A JP 2021051613 A JP2021051613 A JP 2021051613A JP 2019174797 A JP2019174797 A JP 2019174797A JP 2019174797 A JP2019174797 A JP 2019174797A JP 2021051613 A JP2021051613 A JP 2021051613A
Authority
JP
Japan
Prior art keywords
word
concatenated
dictionary
attribute
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019174797A
Other languages
English (en)
Inventor
剛志 柴田
Tsuyoshi Shibata
剛志 柴田
愛生 堀内
Aki Horiuchi
愛生 堀内
寿 田井
Hisashi Tai
寿 田井
貫太郎 三宅
Kantaro Miyake
貫太郎 三宅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2019174797A priority Critical patent/JP2021051613A/ja
Publication of JP2021051613A publication Critical patent/JP2021051613A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】特定分野の文書についての自然言語処理において使用可能な辞書を作成する。【解決手段】辞書作成システムは、入力された文書に存在する複数の単語のうちのいずれかの単語である選択単語の品詞を含む単語属性と、当該選択単語の直前の単語および直後の単語のうちの少なくとも一つの単語である隣接単語の品詞を含む単語属性が、所定の連結条件を満たしているか否かを判定する。当該判定の結果が真であれば、辞書作成システムは、選択単語と隣接単語とを連結した連結単語を作成し、当該連結単語を構成する二つ以上の単語の少なくとも一つの単語の単語属性に基づく属性であり当該連結単語の品詞を含む単語属性を当該連結単語に対して付与する。辞書作成システムは、単語属性が付与された連結単語を辞書に登録する。【選択図】図1

Description

本発明は、概して、辞書の作成に関する。
自然言語処理において、文章を単語に分解する形態素解析、単語間の掛かり受け関係を決める構文解析、または、意味に基づき構文木を選択する意味解析といった解析が行われる。これらの解析は、言語情報を登録している辞書に基づいて実施される。そのため、これらの解析のためのエンジンは、予め用意された基本的な辞書、または、世の中にある既存の辞書といった辞書を使用する。
自然言語処理において必要となる辞書として、一般的な単語が登録されている辞書は入手し易い。しかし、情報処理や医療などの各種分野で用いられる専門用語が登録されている辞書は、必要に応じて作成する必要がある。例えば、特許文献1には、日本語入力システムにおいて辞書を構築する技術が示されている。特許文献1によれば、辞書作成装置は、既存の文書を解析し、連続する形態素の品詞情報を基に所定の連結条件に合致する連結語句を取り出し、取り出した連結語句に読みを付与して辞書を作成する。
特開2002-157241号公報
特許文献1の技術は、かな漢字変換や日本語入力補助への適用を想定、すなわち、日本語入力の負荷軽減を目的としている。特許文献1の技術により作成され読みが付与され辞書に登録された連結語句は、当該連結語句に付与された読みの全部または一部の文字列の入力が無ければ、辞書から当該連結語句は取得されない。このような辞書を、自然言語処理に適用することは困難である。従って、特許文献1の技術では、自然言語処理において使用可能な専門用語の辞書を作成することはできない。
以上のような課題は、専門用語の辞書以外の辞書の作成についても起こり得る。
辞書作成システムは、入力された文書に存在する複数の単語のうちのいずれかの単語である選択単語の品詞を含む単語属性と、当該選択単語の直前の単語および直後の単語のうちの少なくとも一つの単語である隣接単語の品詞を含む単語属性が、所定の連結条件を満たしているか否かを判定する。当該判定の結果が真であれば、辞書作成システムは、選択単語と隣接単語とを連結した連結単語を作成し、当該連結単語を構成する二つ以上の単語の少なくとも一つの単語の単語属性に基づく属性であり当該連結単語の品詞を含む単語属性を当該連結単語に対して付与する。辞書作成システムは、単語属性が付与された連結単語を辞書に登録する。
本発明によれば、特定分野の文書についての自然言語処理において使用可能な辞書を作成することが可能できる。
本発明の一実施形態に係るシステム全体の構成の例を示す図である。 一般辞書の例を示す図である。 品詞組合せ一覧の例を示す図である。 専門辞書の例を示す図である。 辞書作成フローの例を示す図である。 連結結果表示画面の例を示す図である。
以下の説明では、「インターフェース装置」は、一つ以上のインターフェースデバイスでよい。当該一つ以上のインターフェースデバイスは、下記のうちの少なくとも一つでよい。
・一つ以上のI/O(Input/Output)インターフェースデバイス。I/O(Input/Output)インターフェースデバイスは、I/Oデバイスと遠隔の表示用計算機とのうちの少なくとも一つに対するインターフェースデバイスである。表示用計算機に対するI/Oインターフェースデバイスは、通信インターフェースデバイスでよい。少なくとも一つのI/Oデバイスは、ユーザインターフェースデバイス、例えば、キーボードおよびポインティングデバイスのような入力デバイスと、表示デバイスのような出力デバイスとのうちのいずれでもよい。
・一つ以上の通信インターフェースデバイス。一つ以上の通信インターフェースデバイスは、一つ以上の同種の通信インターフェースデバイス(例えば一つ以上のNIC(Network Interface Card))であってもよいし二つ以上の異種の通信インターフェースデバイス(例えばNICとHBA(Host Bus Adapter))であってもよい。
また、以下の説明では、「メモリ」は、一つ以上のメモリデバイスであり、典型的には主記憶デバイスでよい。メモリにおける少なくとも一つのメモリデバイスは、揮発性メモリデバイスであってもよいし不揮発性メモリデバイスであってもよい。
また、以下の説明では、「永続記憶装置」は、一つ以上の永続記憶デバイスである。永続記憶デバイスは、典型的には、不揮発性の記憶デバイス(例えば補助記憶デバイス)であり、具体的には、例えば、Hard Disk Drive(HDD)またはSolid State Drive(SSD)である。
また、以下の説明では、「記憶装置」は、メモリと永続記憶装置の少なくともメモリでよい。
また、以下の説明では、「プロセッサ」は、一つ以上のプロセッサデバイスである。少なくとも一つのプロセッサデバイスは、典型的には、Central Processing Unit(CPU)のようなマイクロプロセッサデバイスであるが、Graphics Processing Unit(GPU)のような他種のプロセッサデバイスでもよい。少なくとも一つのプロセッサデバイスは、シングルコアでもよいしマルチコアでもよい。少なくとも一つのプロセッサデバイスは、プロセッサコアでもよい。少なくとも一つのプロセッサデバイスは、処理の一部または全部を行うハードウェア回路(例えばField-Programmable Gate Array(FPGA)またはApplication Specific Integrated Circuit(ASIC))といった広義のプロセッサデバイスでもよい。
また、以下の説明では、「xxx表」といった表現にて、入力に対して出力が得られる情報を説明することがあるが、当該情報は、どのような構造の情報でもよい。従って、「xxx表」を「xxx情報」と言うことができる。また、以下の説明において、表の構成は一例であり、一つの表は、二つ以上の表に分割されてもよい。また、以下の説明において、各辞書の構成は一例であり、一つの辞書は、二つ以上の辞書に分割されてもよいし、二つ以上の辞書の全部または一部が一つの辞書であってもよい。
また、以下の説明では、「yyy部」の表現にて機能を説明することがあるが、機能は、一つ以上のコンピュータプログラムがプロセッサによって実行されることで実現されてもよいし、一つ以上のハードウェア回路(例えばFPGAまたはASIC)によって実現されてもよい。プログラムがプロセッサによって実行されることで機能が実現される場合、定められた処理が、適宜に記憶装置および/またはインターフェース装置等を用いながら行われるため、機能はプロセッサの少なくとも一部とされてもよい。機能を主語として説明された処理は、プロセッサ或いはそのプロセッサを有する装置が行う処理としてもよい。プログラムは、プログラムソースからインストールされてもよい。プログラムソースは、例えば、プログラム配布計算機または計算機が読み取り可能な記録媒体(例えば非一時的な記録媒体)であってもよい。各機能の説明は一例であり、複数の機能が一つの機能にまとめられたり、一つの機能が複数の機能に分割されたりしてもよい。
また、以下の説明では、「プログラム」を主語として処理を説明する場合があるが、プログラムは、プロセッサによって実行されることで、定められた処理を、適宜に記憶装置および/またはインターフェース装置等を用いながら行うため、処理の主語が、プロセッサ(或いは、そのプロセッサを有するコントローラのようなデバイス)とされてもよい。プログラムは、プログラムソースから計算機のような装置にインストールされてもよい。プログラムソースは、例えば、プログラム配布サーバまたは計算機が読み取り可能な(例えば非一時的な)記録媒体であってもよい。また、以下の説明において、二つ以上のプログラムが一つのプログラムとして実現されてもよいし、一つのプログラムが二つ以上のプログラムとして実現されてもよい。
本発明の一実施形態を図1〜6を用いて説明する。
図1は、本発明の一実施形態に係るシステム全体の構成の例を示す図である。
図1に示したシステムは、サーバ100およびクライアント200を備える。サーバ100とクライアント200は、ネットワーク300により接続される。サーバ100は、ネットワーク300を介して、クライアント200から学習用文書を入手し、連結単語から成る専門辞書170を作成し、クライアント200へ連結結果の出力を行う。サーバ100およびクライアント200のいずれも、一つに限らず複数存在してもよい。一つ以上のサーバ100が、辞書作成システムの一例でよい。
サーバ100は、物理的な計算機でもよいし、クラウド基盤のような複数種類の計算リソース(例えば、インターフェース装置、記憶装置およびプロセッサ)上に実現されたプログラム実行環境(例えば、仮想的な計算機)でもよい。サーバ100は、例えば、インターフェース装置50、記憶装置60およびそれらに接続されたプロセッサ70を備える。インターフェース装置50がネットワーク300に接続される。記憶装置60に格納されている一つ以上のコンピュータプログラムがプロセッサ70により実行されることで、単語分割部110、連結条件確認部120、単語連結部130、および連結単語登録部140といった機能が実現される。記憶装置60は、一般辞書150、単語組合せ一覧表160、および専門辞書170といった情報を格納する。一般辞書150は、文字列を単語に分割するために用いられる辞書の一例である。単語組合せ一覧表160は、単語同士の連結条件を表す表の一例であり、具体的には、例えば、前の単語の単語属性についての複数の品詞細分類と複数の活用形と、後の単語の単語属性についての複数の品詞細分類と複数の活用形との間のうち、連結単語とすることが許可される組合せを表す。専門辞書170は、連結単語が登録される辞書の一例である。
連結条件確認部120は、単語組合せ一覧表160を参照して連結可能な単語の組合せを確認する。単語連結部130は、連結可能な単語同士を連結したり、連結単語の品詞を含む単語属性を当該連結単語に対して付与したりする。連結単語登録部140は、連結単語の出現数を算出したり、連結単語を専門辞書170に登録したり、連結単語の単語属性の指定を受け付けるユーザインターフェースを提供したりする。
クライアント200は、物理的な計算機でもよいし、クラウド基盤のような複数種類の計算リソース上に実現されたプログラム実行環境でもよい。クライアント200は、例えば、インターフェース装置10、記憶装置20、入力デバイス40、表示デバイス45およびそれらに接続されたプロセッサ30を備える。インターフェース装置10がネットワーク300に接続される。入力デバイス40および表示デバイス45は、タッチパネルのような一体型のデバイスでもよい。記憶装置60に格納されている一つ以上のコンピュータプログラムがプロセッサ30により実行されることで、学習用文書入力部210および連結結果表示部220といった機能が実現される。
学習用文書入力部210が、サーバ100に学習用文書を入力する。「学習用文書」とは、専門辞書170の作成のために使用される文書(データ)であり、典型的には、一つ以上の文字列を含んだ文書である。学習用文書は、クライアント200から入力されることに代えてまたは加えて、サーバ100の外部の記憶装置から入力されてもよい。
連結結果表示部220は、サーバ100から提供されたユーザインターフェース(例えばGUI(Graphical User Interface))を表示デバイス45に表示する。当該ユーザインターフェースを通じて、ユーザは、専門辞書170の内容を確認したり、専門辞書170に登録する連結単語を選択したり、登録内容の手動書き換えを行ったりすることができる。
図2は、一般辞書150の例を示す図である。
一般辞書150は、単語毎にエントリを有する。各エントリは、見出し語201、読み202、品詞203、品詞細分類204、活用形205、および付加情報206といった情報を有する。一つの単語を例に取る(図2の説明において「対象単語」)。
見出し語201は、対象単語(例えば、かな漢字変換後の単語)を表す。読み202は、対象単語の読み方(例えば、かな漢字変換前の単語)を表す。品詞203は、対象単語の品詞を表す。品詞細分類204は、対象単語の品詞細分類を表す。活用形205は、対象単語の活用形を表す。付加情報206は、対象単語の付加情報である。付加情報206は、例えば通信に関する分析を実施する際に関連する語句に対して「通信用語」というラベルを含む。これにより、実施する分析に対する関連性を明確に示して、分析処理において特定の処理を実施することができる。
各単語について、品詞、品詞細分類、活用形および付加情報が、それぞれ、単語の単語属性に含まれる要素の一例である。単語の連結の判定には、品詞203、品詞細分類204、および活用形205が参照される。それらの情報に加えて付加情報206が参照されてもよい。自然言語処理では、付加情報206が参照される。自然言語処理では、付加情報206に代えてまたは加えて、品詞203、品詞細分類204、および活用形205のうちの少なくとも一つが参照されてもよい。
図3は、単語組合せ一覧表160の例を示す図である。
図3に例示の単語組合せ一覧表160は、連続した二つの単語の品詞細分類の組合せと、当該二つの単語を連結するか(YES)連結しないか(NO)とを表す。また、単語組合せ一覧表160は、当該二つの単語を連結する場合(YES)について連結単語に付与される品詞細分類(単語属性の一例)も表す。
この表160によれば、連結単語に付与される品詞細分類は、一例として、二つの単語のうちの後の単語の品詞細分類である。
なお、単語組合せ一覧表は、品詞毎に用意されてもよいし、複数品詞が合わさった表でもよい。また、単語組合せ一覧表は、連続した二つの単語の品詞細分類の組合せに代えてまたは加えて、二つの単語の品詞、活用形および付加情報のうちの少なくとも一つの組合せ毎に、YESとNOのいずれに該当するかを表してもよい。また、単語組合せ一覧表の構成は、連続した二つの単語の単語属性の組合せ毎にYESまたはNOを表す構成に代えて、他の構成でもよい。
図4は、専門辞書170の例を示す図である。
専門辞書170は、連結単語毎にエントリを有する。各エントリは、見出し語401、読み402、品詞403、品詞細分類404、活用形405、および付加情報406といった情報を有する。一つの連結単語を例に取る(図4の説明において「対象連結単語」)。
見出し語401は、対象連結単語(例えば、かな漢字変換後の単語)を表す。読み402は、対象連結単語の読み方(例えば、かな漢字変換前の単語)を表す。品詞403は、対象連結単語の品詞を表す。品詞細分類404は、対象連結単語の品詞細分類を表す。活用形405は、対象連結単語の活用形を表す。
付加情報406は、対象連結単語の付加情報である。付加情報406は、例えば、対象連結単語のラベルを含む。付加情報406は、更に、対象連結単語の出現数を表す情報を含む。「出現数」とは、対象連結単語の数と、基準範囲における単語数に対する対象連結単語の数の割合とのうちのいずれかである。「基準範囲」は、学習用文書全体でもよいし、単位文章数でもよいし、単位文字数でもよい。例えば、第1の閾値より出現数の大きい連結単語を専門辞書170に登録することで、学習用文書と同分野の文書の分析において影響の大きい単語を優先的に見つけることが期待できる。また、例えば、第2の閾値より出現数の小さい連結単語を専門辞書170に登録することで、複数文書間の差分を抽出する場合には当該連結単語が有効であることが期待される。なお、第1の閾値および第2の閾値の各々は、出現数の条件の一例であり、学習用文書に存在する単語の数を基に決定された値でよい。
各連結単語について、品詞、品詞細分類、活用形および付加情報が、それぞれ、連結単語の単語属性に含まれる要素の一例である。連結単語も、一般辞書150に登録されている単語と同様、別の単語と連結され得る単語である。単語の連結の判定には、品詞403、品詞細分類404、および活用形405が参照される。それらの情報に加えて付加情報406が参照されてもよい。自然言語処理では、付加情報406が参照される。自然言語処理では、付加情報406に代えてまたは加えて、品詞403、品詞細分類404、および活用形405のうちの少なくとも一つが参照されてもよい。
図5は、辞書作成フローの例を示す図である。
学習用文書500が入力された場合、単語分割部110が、一般辞書150に基づいて、入力された学習用文書500の単語分割処理を実施する(S501)。
連結条件確認部120が、学習用文書500における単語分割処理された単語のうち未選択を選択し、選択単語(選択された単語)に対する品詞および品詞細分類を、例えば一般辞書150から取得する(S502)。なお、本フローでは、単語は学習用文書500の先頭から末尾へかけて順に選択されるが、当該順序は、所定の規則の一例であり、例えば、末尾から先頭へかけて順に単語が選択されてもよい。また、本フローでは、最初の選択単語は、2番目の単語であり、S503で、1番目の単語(直前の単語)と連結するか否かが判定される。
連結条件確認部120が、単語組合せ一覧160を参照して、選択単語とその直前の単語が単語組合せに一致するか否かを判定する(S503)。「単語組合せに一致する」とは、選択単語の単語属性(図3の例では品詞細分類)と直前の単語の単語属性との組合せが、それらの単語を連結する連結条件に適合していること(図3の例では、当該組合せに対応した値が“YES”であること)である。
S503の判定結果が真の場合(S503:Yes)、単語連結部130が、選択単語と直前の単語とを連結し、その連結単語に対して、単語属性を付与する(S504)。付与される単語属性は、単語組合せ一覧160に記述されていて該当した組合せについて指定されている単語属性である。また、S504において、連結単語登録部140は、作成された連結単語に付与する単語属性の少なくとも一部を受け付けるユーザインターフェース(例えばGUI)をクライアント200に提供し、当該ユーザインターフェースを介して受け付けた情報を含む単語属性を、作成された連結単語に付与してもよい。当該ユーザインターフェースの一例は、後に図6を参照して説明する。S504の後、連結条件確認部120が、選択単語を次の単語(直後の単語)にシフトする(S507)。
S503の判定結果が偽の場合(S503:No)、連結単語登録部140が、選択単語の直前の単語が連結単語か否かを判定する(S505)。S505の判定結果が偽の場合(S505:No)、連結条件確認部120が、選択単語を次の単語にシフトする(S507)。
S505の判定結果が真の場合(S505:Yes)、連結単語登録部140が、選択単語の直前の単語である連結単語を専門辞書に登録し、且つ、連結単語の出現数を1インクリメントする(S506)。S506において、当該連結単語が既に専門辞書170に登録済であれば、連結単語登録部140は、当該連結単語の登録をスキップし、当該連結単語の出現数を1インクリメントしてよい。S506の後、連結条件確認部120が、選択単語を次の単語(直後の単語)にシフトする(S507)。
S507のシフトにおいて、連結条件確認部120は、選択単語が、学習用文書500における最後の単語か否かを判定する(S508)。S508の判定結果が偽の場合(S508:No)、連結条件確認部120が、選択単語を次の単語にシフトして新たな単語を選択する(S502)。
S508の判定結果が真の場合(S508:Yes)、連結単語登録部140は、作成された連結単語毎(専門辞書170に登録された連結単語毎)に、出現数を参照し、出現数が所定の条件を満たしていない連結単語を専門辞書170から削除する(S509)。「所定の条件」の一例が、出現数が第1の閾値を超えていること、または、出現数が第2の閾値未満であることでよい。第1の閾値および第2の閾値の各々は、予め定められていてもよいし、学習用文書500における単語の総数を基に例えば連結単語登録部140によって決定された値でもよい。
以上が、辞書作成フローの説明である。辞書作成フローでは、下記のいずれかの変形例が採用されてよい。
・S509は必ずしも行われないでよい。この場合、専門辞書170を使用した自然言語処理(例えば分析)を行うコンピュータプログラムが、専門辞書170に登録されている連結単語毎の出現数を基に、いずれの連結単語を使用するかを決定してよい。
・連結単語毎に連結単語を専門辞書170に登録することに代えて、作成された連結単語と出現数のペアは、記憶装置60におけるメモリのような一時領域に蓄積され、最後の単語が選択単語とされ処理が終了したときに、一時領域における連結単語と出現数のペアが、連結単語登録部140により、専門辞書170に登録されてよい。その際、出現数が所定の条件を満たしていない連結単語は、専門辞書170に登録されないでよい。
・連結単語に付与される単語属性がラベルを含む場合、当該ラベルは、ユーザインターフェース経由でユーザから入力されたラベルでもよいし、連結単語の少なくとも一部の文字列(例えば単語)から所定の規則に基づき例えば単語連結部130により決定されたラベルでもよい。
上述した辞書作成フローによれば、下記が行われる。なお、下記は、学習用文書500が有する文字列「通信ネットワークは、エンドユーザからのデータを送受信するデータ転送路と、そのデータ転送路の管理を行うネットワーク制御の、2種類のアーキテクチャにより実現される。」である場合を例に取る。
一般辞書150により単語分割処理が実施されると(S501)、学習用文書500における文字列が「通信(サ変名詞)/ネットワーク(普通名詞)/は(副助詞)/、(読点)/エンド(普通名詞)/ユーザ(普通名詞)/から(格助詞)/の(接続助詞)/データ(普通名詞)/を(格助詞)/送受信(サ変名詞)/する(サ変動詞)/データ(普通名詞)/転送(サ変名詞)/路(普通名詞)/と(格助詞)/、(読点)/その(連体詞形態指示詞)/データ(普通名詞)/転送(サ変名詞)/路(普通名詞)/の(接続助詞)/管理(サ変名詞)/を(格助詞)/行う(子音動詞ワ行)/ネットワーク(普通名詞)/制御(サ変名詞)/の(格助詞)/、(読点)/2(数詞名詞)/種類(名詞性助数接尾辞)/の(接続助詞)/アーキテクチャ(普通名詞)/に(格助詞)/より(子音動詞ラ行)/実現(サ変名詞)/さ(サ変動詞)/れる(動詞性接尾辞)/。(句点)」のように分割される。
ここで「通信ネットワーク」、「エンドユーザ」、および「データ転送路」のような連結単語は、通信分野においては一つの意味を示す語句であり、通信分野での専門的な解析を行う場合には一つの語句として処理されることが必要となる場合がある。S502において選択単語の直前の単語「通信(サ変名詞)」と選択単語「ネットワーク(普通名詞)」が取得される。S503の判定において、図3に例示の単語組合せ一覧160によれば、「通信ネットワーク」は「通信(サ変名詞)」と「ネットワーク(普通名詞)」の組合せであることから連結組合せの一致(連結条件の適合)が得られる。S504において、「通信ネットワーク」に対して「(普通名詞)」を含む単語属性が付与される。その後、選択単語は、「は(副助詞)」へシフトし、「通信ネットワーク(普通名詞)」と「は(副助詞)」の組合せの判定が実施される。
普通名詞と副助詞は、図3に例示の単語組合せ一覧160が表す組合せに一致しない。このため、S503:Noとなる。S505で、直前の単語である「通信ネットワーク」が連結単語である(S505:Yes)。このため、S506にて、「通信ネットワーク(普通名詞)」が専門辞書170に登録される。
図6は、連結結果表示画面の例を示す。
連結結果表示画面600は、例えばS504において連結単語登録部140により提供されるユーザインターフェースの一例である。連結結果表示画面600は、辞書作成フローの終了後に提供されてもよい。連結単語登録部140は、連結結果表示画面600を通じて、専門辞書170の内容を表示し、各項目の内容の修正をユーザから受け付ける。例えば、連結単語登録部140は、ユーザにより選択された連結単語の単語属性の少なくとも一部の修正要求(例えば、品詞、品詞細分類、活用形およびラベルのうちの少なくとも一つの修正要求)を受け付けた場合、当該選択された連結単語の単語属性を、当該受け付けた修正要求に従う単語属性に変更する。
また、連結結果表示画面600は、専門辞書170の内容を一般辞書150に登録することの要求を受け付けるボタン601を有する。当該ボタン601が押下された場合、連結単語登録部140は、専門辞書170の内容を一般辞書150に追加する。専門辞書170のフォーマットは、一般辞書150のフォーマットと同じでよい。
以上の実施形態および変形例を、例えば下記のように総括することができる。なお、下記の総括は、上述の説明に無い事項を含んでいてもよい。
辞書作成システムは、連結条件確認部120と、単語連結部130と、連結単語登録部140とを備える。連結条件確認部120は、入力された文書(例えば、学習用文書500)に存在する複数の単語のうちのいずれかの単語である選択単語の品詞を含む単語属性と、当該選択単語の直前の単語および直後の単語のうちの少なくとも一つの単語である隣接単語の品詞を含む単語属性が、所定の連結条件(例えば、単語組合せ一覧表160が表す、“YES”の組合せ)を満たしているか否かを判定する。単語連結部130は、判定の結果が真であれば、選択単語と隣接単語とを連結した連結単語を作成し、当該連結単語を構成する二つ以上の単語の少なくとも一つの単語の単語属性に基づく属性であり当該連結単語の品詞を含む単語属性を当該連結単語に対して付与する。連結単語登録部140は、単語属性が付与された連結単語を専門辞書170(辞書の一例)に登録する。
このように、連結単語に対して品詞を含む単語属性が付与される。このため、連結単語の単語属性とその直後の単語の単語属性とを比較してそれらの単語を連結するか否かの判定が可能となる。故に、適切な連結単語の作成が期待される。また、専門辞書170には、連結単語と単語属性が登録される。これにより、特定分野の文書についての自然言語処理において使用可能な辞書を作成することが可能できる。
選択単語は、文書において選択単語とされていない一つ以上の単語から所定の規則に従って選択された単語でよい。単語連結部130により連結単語に対し単語属性が付与された後、文書において選択単語とされていない単語があれば、連結条件確認部120が、当該単語について上記判定(S503)を行ってよい。当該判定において、隣接単語が、当該判定の前に単語連結部130により作成された連結単語でよい。このようにして、連結単語に対して更なる単語の追加の有無の判定が可能である。
連結条件確認部120による判定(S503)の結果が偽であれば、連結単語登録部140が、選択単語の直前(または直後)の単語が連結単語か否かを判定してよい。当該判定の結果が真であれば、連結単語登録部140は、当該連結単語を専門辞書170に登録してよい。このように、連結単語に対して隣接単語を連結できないことが検出された場合に、当該連結単語が、専門辞書170への登録対象とわかる。連結単語が確定する都度に、当該連結単語が専門辞書170に登録されてもよいし、複数の連結単語が確定したときに(例えば、文書全体について連結単語の作成が終了したときに)それらの連結単語が専門辞書170に登録されてよい。
作成された連結単語に付与された単語属性は、当該連結単語を構成する二つ以上の単語のうちの最後の単語の単語属性に基づいていてよい。本願発明者が、本実施形態に係る辞書作成方法の実用化について鋭意検討した結果、連結単語の単語属性は、連結単語を構成する二つ以上の単語のうちの最後の単語の単語属性に基づく単語属性、例えば、当該最後の単語の単語属性それ自体であることが好ましいとの知見を得るに至ったためである。
連結単語登録部140は、作成されたまたは専門辞書170に登録された連結単語の単語属性の少なくとも一部を受け付けるユーザインターフェースを提供してよい。当該ユーザインターフェースを介して、専門辞書170に登録された連結単語のうちユーザにより指定された連結単語について、当該連結単語の修正要求を受け付けた場合、連結単語登録部140は、当該指定された連結単語の単語属性を、受け付けた修正要求に従う単語属性に変更してよい。これにより、連結単語の単語属性を正確または詳細にすることが期待できる。
少なくとも一つの単語属性は、品詞細分類および活用形の少なくとも一つを含んでよい。これにより、単語を連結するか否かの判定の正確性の向上が期待できる。
所定の連結条件は、連続した二つの単語のうちの前の単語の単語属性についての複数の品詞細分類と複数の活用形と、当該連続した二つの単語のうちの後の単語の単語属性についての複数の品詞細分類と複数の活用形との間のうち、連結単語とすることが許可される組合せを表してよい。これにより、連結単語の単語属性を正確または詳細にすることが期待できる。
少なくとも一つの単語属性は、当該単語属性に付与された単語の意味を表すラベルを含んでよい。これにより、連結単語の単語属性を正確または詳細にすることが期待できる。また、専門辞書170のメンテナンスの適切性の向上も期待できる。
連結単語が登録される専門辞書170は、文書にある一つ以上の文字列を複数の単語に分解するために使用される一般辞書150とは別の辞書でよい。これにより、連結単語が一般辞書150に登録されることに比べて、連結単語のメンテナンスが容易であることが期待される。
連結単語登録部140は、作成された連結単語毎に出現数を算出してよい。連結単語登録部140は、出現数が所定の条件を満たしていない連結単語を専門辞書170に登録しないまたは専門辞書170から削除してよい。これにより、出現数の観点から不適切な連結単語が専門辞書170に存在することを避け、以って、専門辞書170を使用した自然言語処理の結果としてより好適な結果が得られることが期待される。
なお、上述した実施形態は、本発明の好適な実施形態であり、本発明の要旨を逸脱しない範囲内において変更が可能である。例えば、辞書作成システムは、サーバ100として実現することに代えて、一つ以上の計算機で構成されてもよいし、複数の計算リソースを含んだリソースプール(例えばクラウド基盤)上に実現されてもよい。また、本発明は、日本語以外の言語にも適用可能である。
100 サーバ
110 単語分割部
120 連結条件確認部
130 単語連結部
140 連結単語登録部
150 一般辞書
160 単語組合せ一覧表
170 専門辞書
200 クライアント
300 ネットワーク

Claims (20)

  1. (A)入力された文書に存在する複数の単語のうちのいずれかの単語である選択単語の品詞を含む単語属性と、当該選択単語の直前の単語および直後の単語のうちの少なくとも一つの単語である隣接単語の品詞を含む単語属性が、所定の連結条件を満たしているか否かを判定し、
    (B)(A)の判定結果が真であれば、
    前記選択単語と前記隣接単語とを連結した連結単語を作成し、
    当該連結単語を構成する二つ以上の単語の少なくとも一つの単語の単語属性に基づく属性であり当該連結単語の品詞を含む単語属性を当該連結単語に対して付与し、
    (C)単語属性が付与された連結単語を辞書に登録する、
    辞書作成方法。
  2. 前記選択単語は、前記文書において選択単語とされていない一つ以上の単語から所定の規則に従って選択された単語であり、
    (B)の後、前記文書において選択単語とされていない単語があれば、(A)を行い、当該(A)において、前記隣接単語が、当該(A)の前に行われた(B)において作成された連結単語である、
    請求項1に記載の辞書作成方法。
  3. (D)(A)の判定結果が偽であれば、
    前記選択単語の直前または直後の単語が連結単語か否かを判定し、
    当該判定の結果が真であれば、当該連結単語について(C)を行い、
    (B)または(D)の後、前記文書において選択単語とされていない単語があれば、(A)を行う、
    請求項2に記載の辞書作成方法。
  4. 前記作成された連結単語に付与された単語属性は、当該連結単語を構成する二つ以上の単語のうちの最後の単語の単語属性に基づいている、
    請求項1に記載の辞書作成方法。
  5. (B)において、
    前記作成されたまたは前記辞書に登録された連結単語の単語属性の少なくとも一部を受け付けるユーザインターフェースを提供し、
    当該ユーザインターフェースを介して、前記辞書に登録された連結単語のうちユーザにより指定された連結単語について、当該連結単語の修正要求を受け付け、
    前記指定された連結単語の単語属性を、前記受け付けた修正要求に従う単語属性に変更する、
    請求項1に記載の辞書作成方法。
  6. 少なくとも一つの単語属性は、品詞細分類および活用形の少なくとも一つを含む、
    請求項1に記載の辞書作成方法。
  7. 前記所定の連結条件は、連続した二つの単語のうちの前の単語の単語属性についての複数の品詞細分類と複数の活用形と、当該連続した二つの単語のうちの後の単語の単語属性についての複数の品詞細分類と複数の活用形との間のうち、連結単語とすることが許可される組合せを表す、
    請求項6に記載の辞書作成方法。
  8. 少なくとも一つの単語属性は、当該単語属性に付与された単語の意味を表すラベルを含む、
    請求項1に記載の辞書作成方法。
  9. (B)において作成された連結単語が登録される辞書は、前記文書にある一つ以上の文字列を前記複数の単語に分解するために使用される辞書とは別の辞書である、
    請求項8に記載の辞書作成方法。
  10. 作成された連結単語毎に出現数を算出し、
    出現数が所定の条件を満たしていない連結単語を前記辞書に登録しないまたは前記辞書から削除する、
    請求項1に記載の辞書作成方法。
  11. 入力された文書に存在する複数の単語のうちのいずれかの単語である選択単語の品詞を含む単語属性と、当該選択単語の直前の単語および直後の単語のうちの少なくとも一つの単語である隣接単語の品詞を含む単語属性が、所定の連結条件を満たしているか否かを判定する連結条件確認部と、
    前記判定の結果が真であれば、前記選択単語と前記隣接単語とを連結した連結単語を作成し、当該連結単語を構成する二つ以上の単語の少なくとも一つの単語の単語属性に基づく属性であり当該連結単語の品詞を含む単語属性を当該連結単語に対して付与する単語連結部と、
    単語属性が付与された連結単語を辞書に登録する連結単語登録部と
    を備える辞書作成システム。
  12. 前記選択単語は、前記文書において選択単語とされていない一つ以上の単語から所定の規則に従って選択された単語であり、
    前記単語連結部により連結単語に対し単語属性が付与された後、前記文書において選択単語とされていない単語があれば、
    前記連結条件確認部が、当該単語について前記判定を行い、
    当該判定において、前記隣接単語が、当該判定の前に前記単語連結部により作成された連結単語である、
    請求項11に記載の辞書作成システム。
  13. 前記連結条件確認部による判定の結果が偽であれば、前記連結単語登録部が、
    前記選択単語の直前または直後の単語が連結単語か否かを判定し、
    当該判定の結果が真であれば、当該連結単語を前記辞書に登録する、
    請求項12に記載の辞書作成システム。
  14. 前記作成された連結単語に付与された単語属性は、当該連結単語を構成する二つ以上の単語のうちの最後の単語の単語属性に基づいている、
    請求項11に記載の辞書作成システム。
  15. 前記連結単語登録部は、
    前記作成されたまたは前記辞書に登録された連結単語の単語属性の少なくとも一部を受け付けるユーザインターフェースを提供し、
    当該ユーザインターフェースを介して、前記辞書に登録された連結単語のうちユーザにより指定された連結単語について、当該連結単語の修正要求を受け付け、
    前記指定された連結単語の単語属性を、前記受け付けた修正要求に従う単語属性に変更する、
    請求項11に記載の辞書作成システム。
  16. 少なくとも一つの単語属性は、品詞細分類および活用形の少なくとも一つを含む、
    請求項11に記載の辞書作成システム。
  17. 前記所定の連結条件は、連続した二つの単語のうちの前の単語の単語属性についての複数の品詞細分類と複数の活用形と、当該連続した二つの単語のうちの後の単語の単語属性についての複数の品詞細分類と複数の活用形との間のうち、連結単語とすることが許可される組合せを表す、
    請求項16に記載の辞書作成システム。
  18. 少なくとも一つの単語属性は、当該単語属性に付与された単語の意味を表すラベルを含む、
    請求項11に記載の辞書作成システム。
  19. 前記連結単語登録部は、作成された連結単語毎に出現数を算出し、
    前記連結単語登録部は、出現数が所定の条件を満たしていない連結単語を前記辞書に登録しないまたは前記辞書から削除する、
    請求項11に記載の辞書作成システム。
  20. (A)入力された文書に存在する複数の単語のうちのいずれかの単語である選択単語の品詞を含む単語属性と、当該選択単語の直前の単語および直後の単語のうちの少なくとも一つの単語である隣接単語の品詞を含む単語属性が、所定の連結条件を満たしているか否かを判定し、
    (B)(A)の判定結果が真であれば、
    前記選択単語と前記隣接単語とを連結した連結単語を作成し、
    当該連結単語を構成する二つ以上の単語の少なくとも一つの単語の単語属性に基づく属性であり当該連結単語の品詞を含む単語属性を当該連結単語に対して付与し、
    (C)単語属性が付与された連結単語を辞書に登録する、
    ことをコンピュータに実行させるコンピュータプログラム。
JP2019174797A 2019-09-25 2019-09-25 自然言語処理において使用される辞書を作成する方法およびシステム Pending JP2021051613A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019174797A JP2021051613A (ja) 2019-09-25 2019-09-25 自然言語処理において使用される辞書を作成する方法およびシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019174797A JP2021051613A (ja) 2019-09-25 2019-09-25 自然言語処理において使用される辞書を作成する方法およびシステム

Publications (1)

Publication Number Publication Date
JP2021051613A true JP2021051613A (ja) 2021-04-01

Family

ID=75156249

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019174797A Pending JP2021051613A (ja) 2019-09-25 2019-09-25 自然言語処理において使用される辞書を作成する方法およびシステム

Country Status (1)

Country Link
JP (1) JP2021051613A (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0675264B2 (ja) * 1989-08-10 1994-09-21 日本電気株式会社 複合語の辞書情報推定装置
JPH11134334A (ja) * 1997-10-29 1999-05-21 Fujitsu Ltd 単語登録装置及び記録媒体
JP2002157241A (ja) * 2000-09-06 2002-05-31 Fujitsu Ltd 辞書作成装置
JP2010009355A (ja) * 2008-06-27 2010-01-14 Sony Corp 電子機器、形態素複合方法及びそのプログラム
JP2013174995A (ja) * 2012-02-24 2013-09-05 Nippon Hoso Kyokai <Nhk> 基本語彙抽出装置、及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0675264B2 (ja) * 1989-08-10 1994-09-21 日本電気株式会社 複合語の辞書情報推定装置
JPH11134334A (ja) * 1997-10-29 1999-05-21 Fujitsu Ltd 単語登録装置及び記録媒体
JP2002157241A (ja) * 2000-09-06 2002-05-31 Fujitsu Ltd 辞書作成装置
JP2010009355A (ja) * 2008-06-27 2010-01-14 Sony Corp 電子機器、形態素複合方法及びそのプログラム
JP2013174995A (ja) * 2012-02-24 2013-09-05 Nippon Hoso Kyokai <Nhk> 基本語彙抽出装置、及びプログラム

Similar Documents

Publication Publication Date Title
US10275443B2 (en) Hybrid grammatical and ungrammatical parsing
US20220092252A1 (en) Method for generating summary, electronic device and storage medium thereof
US10140260B2 (en) Intelligent text reduction for graphical interface elements
WO2016125031A1 (en) Modifying a tokenizer based on pseudo data for natural language processing
JP6532088B2 (ja) 自律学習整列ベースの整列コーパス生成装置およびその方法と、整列コーパスを用いた破壊表現の形態素分析装置およびその形態素分析方法
CN110678868B (zh) 翻译支持系统、装置和方法以及计算机可读介质
EP2927825A1 (en) Input string matching for domain names
US10261989B2 (en) Method of and system for mapping a source lexical unit of a first language to a target lexical unit of a second language
US10503808B2 (en) Time user interface with intelligent text reduction
CN102063508A (zh) 基于广义后缀树的中文搜索引擎模糊自动补全方法
CN109271641A (zh) 一种文本相似度计算方法、装置及电子设备
US20220067290A1 (en) Automatically identifying multi-word expressions
US20220005461A1 (en) Method for recognizing a slot, and electronic device
CN113836314B (zh) 知识图谱构建方法、装置、设备以及存储介质
US11074402B1 (en) Linguistically consistent document annotation
US10540445B2 (en) Intelligent integration of graphical elements into context for screen reader applications
US20190303437A1 (en) Status reporting with natural language processing risk assessment
US10509812B2 (en) Reducing translation volume and ensuring consistent text strings in software development
US11120224B2 (en) Efficient translating of social media posts
US9495638B2 (en) Scalable, rule-based processing
US9886498B2 (en) Title standardization
RU2595531C2 (ru) Способ и система генерирования определения слова на основе множественных источников
US11086600B2 (en) Back-end application code stub generation from a front-end application wireframe
JP2021051613A (ja) 自然言語処理において使用される辞書を作成する方法およびシステム
KR102531507B1 (ko) 정보 출력 방법, 장치, 기기 및 저장 매체

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230124

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230317

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230620

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20231212