JP2008021016A - 専門用語判別装置および専門用語判別方法 - Google Patents

専門用語判別装置および専門用語判別方法 Download PDF

Info

Publication number
JP2008021016A
JP2008021016A JP2006190629A JP2006190629A JP2008021016A JP 2008021016 A JP2008021016 A JP 2008021016A JP 2006190629 A JP2006190629 A JP 2006190629A JP 2006190629 A JP2006190629 A JP 2006190629A JP 2008021016 A JP2008021016 A JP 2008021016A
Authority
JP
Japan
Prior art keywords
compound word
semantic distance
technical term
words
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006190629A
Other languages
English (en)
Other versions
JP4961869B2 (ja
Inventor
Tokuji Ikeno
篤司 池野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2006190629A priority Critical patent/JP4961869B2/ja
Publication of JP2008021016A publication Critical patent/JP2008021016A/ja
Application granted granted Critical
Publication of JP4961869B2 publication Critical patent/JP4961869B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】複合語を構成する語が専門用語であるという情報を保持していない場合にも複合語の専門性を判別することの可能な、専門用語判別装置を提供する。
【解決手段】本発明にかかる専門用語判別装置100は、複合語の専門性を判別する専門用語判別装置100であって、構成語を組み合わせて構成される複合語を、各構成語に分割する複合語分割部120と、分割された構成語間の意味距離を計算する意味距離計算部130と、意味距離計算部130により計算された意味距離の大きさに基づいて、複合語の専門性を判定する専門性判定部140と、を備えることを特徴とする。専門用語判別装置100は、構成語間の意味距離の計算に用いられる単語間の距離データを記憶する距離データ記憶部160をさらに備えることもできる。
【選択図】図1

Description

本発明は、専門用語判別装置および専門用語判別方法に関し、より詳細には、構成語を組み合わせてなる複合語の専門性を判別する専門用語判別装置および専門用語判別方法に関する。
新しい専門用語は、例えば非特許文献1に記載された方法等により、統計的に獲得することが可能である。これらの専門用語が専門用語辞書に追加されることにより、文書の解析の正確さを高めることができる。
このようにして獲得された用語について、獲得された用語が専門用語であるかどうかの判別を行う必要が生じる場合がある。専門用語の多くは構成語を組み合わせてなる複合語であることが多いため、例えば特許文献1により開示されているように、複合語の構成語の中から中心語となるものを認定し、その構成語の辞書情報を全体にコピーする装置により、複合語が専門用語であるかどうかを判別することが考えられる。
特公平6−075264号公報 中川、森、湯本、「出現頻度と連接頻度に基づく専門用語抽出」、自然言語処理、2003年1月、Vol.10、No.1、pp.27−45
しかし、特許文献1に記載の装置では、中心語が専門用語であるという情報をあらかじめ有していなければ、複合語が専門用語であるという辞書情報を与えることができなかった。
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、複合語を構成する構成語が専門用語であるという情報を保持していない場合にも複合語の専門性を判別することの可能な、新規かつ改良された専門用語判別装置を提供することにある。
上記課題を解決するために、本発明のある観点によれば、複合語の専門性を判別する専門用語判別装置が提供される。かかる専門用語判別装置は、構成語を組み合わせて構成される複合語を、各構成語に分割する複合語分割部と、複合語分割部により分割された構成語間の意味距離を計算する意味距離計算部と、意味距離計算部により計算された意味距離の大きさに基づいて、複合語の専門性を判定する専門性判定部とを備えることを特徴とする。
本発明によれば、複合語を構成する構成語間の意味距離の大きさに基づいて、複合語の専門性が判定される。意味距離は、単語間の意味的な近さを表す値であり、意味距離により、複合語を構成する構成語どうしが意味的に近いものであるか、あるいは遠いものであるかを表すことができる。本発明は、算出された構成語間の意味距離を用いることにより、あらかじめ構成語が専門用語であるか否かについて情報を保持していなくとも、複合語の専門性を判定することができる。
ここで、専門用語判別装置は、構成語間の意味距離の計算に用いられる単語間の距離データを記憶する距離データ記憶部をさらに備えることもできる。距離データ記憶部の保持する距離データには、例えば、単語を同義語・類義語などにより分類したシソーラスなどを用いることができる。
専門性判定部は、構成語間の意味距離が第1の閾値より大きい場合に、複合語が専門用語であると判定する。第1の閾値は、各構成語の意味が遠すぎるか否かを判別するために設けられる。または、構成語間の意味距離が第2の閾値より小さい場合に、複合語が専門用語であると判定する。第2の閾値は、各構成語の意味が近すぎるか否かを判別するために設けられる。本発明において、複合語の「専門性」は、通常は組み合わせないような構成語の組み合わせの存在により計られる。したがって、複合語に、構成語間の意味が遠すぎる組み合わせが含まれていたり、あるいは構成語間の意味が近すぎる組み合わせが含まれる場合、通常は組み合わせない構成語が含まれているとして専門用語であると判定される。このように、本発明にかかる専門用語判別装置では、構成語の組み合わせにより専門性を有する複合語を判別することができる。
また、複合語を構成する構成語が3つ以上ある場合には、複合語は複数の構成語間の意味距離を有する。この場合、専門性判定部は、複数の構成語間の意味距離のうち最大値である最大意味距離と第1の閾値とを比較し、または複数の構成語間の意味距離のうち最小値である最小意味距離と第2の閾値とを比較することにより、複合語が専門用語であるか否かを判定することができる。
また、上記課題を解決するために、本発明の別の観点によれば、複合語の専門性を判別する専門用語判別方法が提供される。かかる専門用語判別方法は、入力された複合語を、複合語を構成する構成語に分割する複合語分割ステップと、分割された構成語間の意味距離を計算する意味距離計算ステップと、計算された意味距離の大きさに基づいて、複合語の専門性を判定する専門性判定ステップと、を備えることを特徴とする。
本発明によれば、複合語を構成する構成語間の意味距離の大きさに基づいて、複合語の専門性が判定される。これにより、あらかじめ構成語が専門用語であるか否かについて情報を保持していなくとも、複合語の専門性を判定することができる。
ここで、意味距離計算ステップは、単語間の距離データを記憶する距離データ記憶部に記憶された距離データを用いて、構成語間の意味距離を計算することができる。距離データ記憶部の保持する距離データには、例えば、単語を同義語・類義語などにより分類したシソーラスなどを用いることができる。
また、専門性判定ステップは、構成語間の意味距離が第1の閾値より大きい場合に、複合語が専門用語であると判定する。または、構成語間の意味距離が第2の閾値より小さい場合に、複合語が専門用語であると判定する。ここで、第1の閾値は、各構成語の意味が遠すぎるか否かを判別するために設けられる。第2の閾値は、各構成語の意味が近すぎるか否かを判別するために設けられる。
また、複合語を構成する構成語が3つ以上ある場合には、複合語は複数の構成語間の意味距離を有する。この場合、専門性判定ステップは、複数の構成語間の意味距離の中で最大値である最大意味距離と第1の閾値とを比較し、または複数の構成語間の意味距離の中で最小値である最小意味距離と第2の閾値とをそれぞれ比較して、複合語が専門用語であることを判定することができる。
以上説明したように本発明によれば、複合語を構成する語が専門用語であるという情報を保持していない場合にも複合語の専門性を判別することの可能な、専門用語判別装置を提供することができる。
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
まず、図1および図2に基づいて、本発明の実施形態にかかる専門用語判別装置100の構成について説明する。なお、図1は、本実施形態にかかる専門用語判別装置100の構成を示すブロック図である。図2は、本実施形態にかかる距離データ記憶部160の構造を示す説明図である。
本実施形態にかかる専門用語判別装置100は、図1に示すように、複合語入力部110と、複合語分割部120と、意味距離計算部130と、専門性判定部140と、判定結果出力部150と、距離データ記憶部160とを備える。
複合語入力部110は、辞書に新しく追加される候補である複合語が入力される機能部である。複合語入力部110に入力された複合語は、複合語分割部120に送信される。
複合語分割部120は、複合語を構成要素(構成語)に分割する機能部である。複合語分割部120には、例えば、既存の形態素解析装置を用いることができる。複合語分割部120により構成語に分割された複合語は、意味距離計算部130に送信される。
意味距離計算部130は、複合語を構成する構成語間の意味距離を計算する機能部である。意味距離計算部130は、複合語分割部120による分割によって生成された複合語の各構成語について、後述する距離データ記憶部160に記憶された情報を読み出して、構成語間の意味距離を計算する。本実施形態にかかる意味距離計算部130は、構成語間の意味距離について、最大値(最大意味距離)と最小値(最小意味距離)とを算出する。算出された意味距離は、専門性判定部140に送信される。
専門性判定部140は、複合語の専門性を判定して出力する機能部である。専門性判定部140は、意味距離計算部130により算出された構成語間の意味距離の値を、あらかじめ設定された基準値(閾値)と比較することにより、複合語の専門性を判定する。この専門性の判定方法の詳細については、後述する。
判定結果出力部150は、専門性判定部140により判定した複合語の専門性の有無を出力する機能部である。なお、本実施形態の判定結果出力部150から出力される値は、専門性の有無であるが、本発明はかかる例に限定されず、例えば計算された意味距離とあらかじめ設定された閾値との差異に基づく数値情報を専門性指標として出力するようにしてもよい。
距離データ記憶部160は、同義語・類義語等により単語を分類し、単語間の関係を記憶した記憶部であり、例えばRAMやハードディスク等のメモリを含んで構成される。距離データ記憶部160の保持するデータ構造としては、例えば、図2に示すような階層構造とすることができる。この場合、木構造のノードに相当する部分に単語が配置され、枝(経路)に相当する部分に2つの単語間の意味距離が記されるようなデータ構造とすることができる。
以上、本実施形態にかかる専門用語判別装置100の構成について説明した。この専門用語判別装置100は、複合語を構成する構成語間の意味距離を用いて、複合語が専門用語であるか否かを判別することを特徴とする。次に、図3および図4に基づいて、本実施形態にかかる専門用語判別装置100による専門用語判別方法について説明する。なお、図3は、本実施形態にかかる専門用語判別方法を示すフローチャートである。図4は、意味距離計算処理を示すフローチャートである。
本実施形態にかかる専門用語判別方法は、図3に示すように、まず、専門用語判別装置100に与えられた複合語を構成語に分割する(S101)。複合語を構成語に分割する複合語分割部120は、上述したように既存の形態素解析装置を用いることができる。この処理の詳細な説明は省略するが、一般的な形態素解析装置に未知の複合語を入力することによって、入力された複合語を形態素単位で分割して出力することができる。
次いで、ステップS101にて構成語に分割された複合語について、各構成語間の意味距離を計算する(S103)。この意味距離計算処理について、以下、図4に基づいて説明する。
構成語間の意味距離の計算処理は、図4に示すように、まず、ステップS101において構成語に分割された複合語に対して、先頭から隣接する構成語のペアを作成する(S201)。ステップS201では、意味距離を計算する構成語のペアを決定する。なお、本実施形態では、隣接する構成語のペアを作成したが、すべての構成語の組み合わせについて意味距離を求めて最大意味距離または最小意味距離を決定してもよい。
次いで、構成語間の意味距離の値に初期値を設定する(S203)。ここで、本実施形態では、複合語を構成する構成語間の意味距離について、最大値(最大意味距離)と最小値(最小意味距離)とを決定する。ステップS203では、最大意味距離および最小意味距離に初期値を設定し、例えば最大意味距離の初期値に0、最小意味距離の初期値に無限大を設定することができる。なお、本実施形態では、意味距離の値として、意味距離の最大値と最小値の両方を用いるが、本発明はかかる例に限定されず、例えば、意味距離の最大値と最小値のいずれか一方のみを用いてもよく、意味距離の最大値と最小値との差を用いてもよい。
さらに、ステップS201にて作成された構成語のペアについて、意味距離計算が行われていない構成語のペアが存在するか否かを判定する(S205)。ステップS205において、すべての構成語のペアについて意味距離計算が行われている場合には、最大意味距離および最小意味距離を出力し(S207)、図3のステップS105の処理を行う。
一方、ステップS205において、意味距離計算がまだ行われていない構成語のペアが存在する場合には、ステップS209〜S213の処理を行う。
意味距離計算が行われていない構成語のペアについて、まず、各構成語の距離データ記憶部160上での位置を特定し、一方の語から他方の語までの最短到達経路を探す(S209)。その後、ノードからノードへの各経路に付与されている意味距離に基づいて、到達経路上の意味距離を積算する。例えば、図2において、「テレビ」から「広告」への最短到達経路は「テレビ−公開−広告」であり、この場合の意味距離は、0.2+0.1=0.3である。
次いで、ステップS209で算出された意味距離の値と、現在保持している意味距離とを比較する(S211)。本実施形態では、ステップS209で算出された意味距離の値が、保持している最大意味距離よりも大きいか、最小意味距離よりも小さいかのいずれかが成立するか否かについて判定する。成立すると判定された場合には、ステップS213の処理を行う。一方、いずれも成立しない場合は、ステップS205に戻る。
ステップS209にて意味距離の条件が成立すると判定されると、現在保持されている意味距離の値を、ステップS209で算出された意味距離の値に更新する(S213)。最大意味距離の条件が成立していれば、保持されていた最大意味距離を、算出した最大意味距離に更新する。同様に、最小意味距離の条件が成立していれば、保持されていた最小意味距離を、算出した最小意味距離に更新する。意味距離の更新が終わると、ステップS205に戻る。
以上、本実施形態での意味距離計算処理について説明した。このような処理により、最終的に複合語を構成する構成語間の意味距離のうち、最大意味距離と最小意味距離とを決定することができる。
ステップS103にて意味距離が算出されると、算出された構成語間の意味距離は専門性判定部140に送信される。そして、算出された構成語間の意味距離を受け取った専門性判定部140は、複合語に専門性があるか否かを判定する(S105)。かかる判定は、算出された最大意味距離および最小意味距離を、あらかじめ設定された最大閾値および最小閾値と比較することによって行われる。この最大閾値および最小閾値は、例えばいくつかの例を用いた実験や経験により決定することができる。
ここで、専門性の判定条件は、設定された最大閾値より最大意味距離が大きいか、または最小閾値より最小意味距離が小さいか、と設定することができる。そして、この判定条件を満たす場合、入力された複合語に専門性があると判定される。一方、どちらの条件も満たさない場合には、入力された複合語に専門性がない(入力された複合語は専門用語ではない)と判定される。
この判定条件は、判別対象となる複合語の構成要素が、意外な組み合わせであることに基づくものである。専門用語は、普通の人は知らないが、その分野に精通している人ならば知っている用語であることから、専門用語は、通常組み合わせないような意外な要素を組み合わせて構成されていると考えられる。かかる考えに基づき、本実施形態でいう「専門性」は、通常組み合わせないような構成要素の組み合わせにより計られる。すなわち、本実施形態でいう専門用語と判別される複合語は、「意味距離が遠すぎる構成語が隣り合う箇所がある」または「意味距離が近すぎる構成語が隣り合う箇所がある」のいずれかの条件を満たすことになる。
ステップS105にて複合語の専門性が判定されると、専門性判定部140での判定結果が、判定結果出力部150により結果を出力される(S107)。このようにして、複合語が専門用語であるか否かを判別することができる。
次に、図2〜図4に基づき、具体的な入力例による本実施形態にかかる専門用語判別装置100の処理を、実施例1および実施例2として説明する。
(実施例1)
実施例1では、「公開鍵暗号」という複合語が専門用語判別装置100の複合語入力部110に入力された場合について説明する。
複合語入力部110から複合語「公開鍵暗号」を受信した複合語分割部120は、まず、かかる複合語を構成語に分割する。この処理により、複合語「公開鍵暗号」は、「公開」、「鍵」、「暗号」の3つの構成語に分割され、複合語分割部120によって構成語に分割された複合語は、意味距離計算部130に送信される。
次いで、意味距離計算部130は、複合語を構成する3つの構成語から、例えば隣り合う構成語をペアとした、「公開−鍵」、「鍵−暗号」というペアを作成する。そして、最大意味距離に0、最小意味距離に無限大を初期値としてそれぞれ設定する。ここで、これら2つのペアの意味距離はまだ計算されていないため、ペアをなす構成語間の意味距離をそれぞれ計算する。
まず、「公開−鍵」のペアの意味距離を計算する。このため、距離データ記憶部160上で最短到達経路を探索する。図2を参照すると、最短到達経路は「公開−B−A−C−秘密−鍵」となる。次いで、その意味距離を計算すると、15.2+18.9+0.4=34.5となる。この意味距離の値は、最大意味距離0より大きく、最小意味距離無限大より小さいので、最大意味距離および最小意味距離の条件がともに成立する。したがって、最大意味距離および最小意味距離ともに、34.5という値に更新される。
次に、「鍵−暗号」のペアの意味距離を計算する。距離データ記憶部160上で最短到達経路を探索すると、図2より、最短到達経路は「鍵−秘密−暗号」という経路になり、意味距離は、0.4+0.1=0.5となる。この値は、最大意味距離34.5よりは大きくないが、最小意味距離34.5よりは小さい。したがって、最小意味距離のみを0.5という値で更新する。
以上より、意味距離計算部130は、複合語「公開鍵暗号」の最大意味距離を34.5、最小意味距離を0.5と決定し、この意味距離の値を専門性判定部140に送信する。
意味距離の値を受信した専門性判定部140は、あらかじめ設定された最大閾値および最小閾値と、意味距離の値とを比較する。ここで、例えば、最大閾値が30.0、最小閾値が0.45と設定されているとする。この場合、最小意味距離0.5は最小閾値0.45よりも大きいので専門性の判定条件を満たさないが、最大意味距離34.5は最大閾値30.0よりも大きいので専門性の判定条件を満たす。
以上より、専門性判定部140は、「公開鍵暗号」は専門性のある複合語と判定され、判定結果出力部150からかかる結果が出力される。
(実施例2)
次に、実施例2では、「秘密鍵暗号」という複合語が複合語入力部110に入力された場合について説明する。
実施例1と同様に処理を行うと、複合語「秘密鍵暗号」は、「秘密」、「鍵」、「暗号」という構成語に分割され、その後、「秘密−鍵」、「鍵−暗号」のペアが作成される。そして、構成語の各ペアについて距離データ記憶部160上で最短到達経路を探索し、その意味距離を計算する。図2より、「秘密−鍵」の意味距離は0.4、「鍵−暗号」の意味距離は0.5となり、最大意味距離は0.5、最小意味距離は0.4と決定される。算出された意味距離は、専門性判定部140に送信される。
専門性判定部140は、受け取った意味距離に基づいて、複合語「秘密鍵暗号」に専門性があるか否かについて判定する。ここで、専門性を判定するための最大閾値および最小閾値が、最大閾値30.0、最小閾値0.45であるとすると、最大意味距離0.5は最大閾値30.0より小さいので専門性の判定条件を満たさないが、最小意味距離0.4は最小閾値0.45よりも小さいので専門性の判定条件を満たす。したがって、専門性判定部140は、「秘密鍵暗号」を専門性のある複合語と判定し、判定結果出力部150からかかる結果が出力される。
実施例1で判別対象とした複合語「公開鍵暗号」では、「鍵」という本来公にすべきものではないものに「公開」という言葉が組み合わされていることに意外性があり、一方、実施例2で判別対象とした複合語「秘密鍵暗号」では、当然秘密にされる「鍵」に「秘密」という言葉が組み合わされていることに意外性(不自然さ)がある。このように、複合語を構成する構成語の組み合わせに意外性、すなわち構成語の意味が遠すぎたり近すぎたりする場合、その複合語は専門用語と判別される。したがって、意味距離が遠すぎる構成語が隣り合う箇所を含む複合語、または意味距離が近すぎる構成語が隣り合う箇所を含む構成語を、専門用語として判別する。
以上、本発明の実施形態にかかる専門用語判別装置100の処理について説明した。この専門用語判別装置100は、複合語を構成する構成語間の意味距離を算出し、算出された意味距離が最大閾値より大きいか、または最小閾値より小さいかという判定条件により、複合語が専門用語であるか否かを判定する。これにより、複合語の構成語が専門用語であるか否かという情報を保持していなくとも複合語の専門性を判別することができる。
以上、添付図面を参照しながら本発明の好適な実施形態について説明したが、本発明は係る例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。
例えば、上記実施形態では、単語間の意味距離を求めるにあたり、木構造の形式で2語間の意味距離を保持するシソーラスデータを利用する例を示したが、本発明はかかる例に限定されず、単語間の意味距離を保持するようなデータであればどのような形式でもよい。
また、上記実施形態では、3つ以上の構成語が存在する場合には、隣接する2つの構成語間の意味距離を順に求め、その最大値または最小値を専門性の判定に用いたが、本発明はかかる例に限定されない。例えば、最大意味距離または最小意味距離を用いずに、各構成語間の意味距離の平均値を求めて複合語の専門性の判定に用いてもよい。
さらに、上記実施形態では、構成語間の意味距離は、距離データ記憶部の保持するデータであるシソーラス上の経路に基づく距離を用いたが、本発明はかかる例に限定されず、例えば、ベクトル空間上に各構成語を配置した場合の内積を意味距離とする等、他の形式の距離定義を行ってもよい。
また、上記実施形態では、専門性の判定において、意味距離が最大閾値よりも大きい場合と、最小閾値よりも小さい場合とを別個に判定したが、本発明はかかる例に限定されず、例えば意味距離が最大閾値と最小閾値とで設定される数値の範囲外にあるか否かを判定の基準として用いることもできる。
さらに、上記実施形態では、専門性を判定するための最大閾値および最小閾値は、固定値であったが、本発明はかかる例に限定されず、例えば最短到達経路上のノード数等のパラメータに応じて変動する値であってもよい。
また、上記実施形態では、距離データ記憶部の保持するデータであるシソーラスは、専門用語判別装置内部に備えられていたが、本発明はかかる例に限定されず、専門用語判別装置の外部の例えばサーバ等に備えることもできる。この場合、複数の専門用語判別装置によりシソーラスを共有することが可能となる。
本発明は、専門用語判別装置および専門用語判別方法に適用可能であり、特に、複合語の専門性を判別する専門用語判別装置および専門用語判別方法に適用可能である。
本発明の実施形態にかかる専門用語判別装置の構成を示すブロック図である。 距離データ記憶部の保持する距離データの構造を示す説明図である。 専門用語判別装置による専門用語判別方法を示すフローチャートである。 専門用語判別装置の意味距離計算処理を示すフローチャートである。
符号の説明
100 専門用語判別装置
110 複合語入力部
120 複合語分割部
130 意味距離計算部
140 専門性判定部
150 判定結果出力部
160 距離データ記憶部

Claims (12)

  1. 複合語の専門性を判別する専門用語判別装置であって、
    構成語を組み合わせて構成される複合語を、前記各構成語に分割する複合語分割部と、
    前記複合語分割部により分割された前記構成語間の意味距離を計算する意味距離計算部と、
    前記意味距離計算部により計算された意味距離の大きさに基づいて、前記複合語の専門性を判定する専門性判定部と、
    を備えることを特徴とする、専門用語判別装置。
  2. 前記構成語間の意味距離の計算に用いられる単語間の距離データを記憶する距離データ記憶部をさらに備えることを特徴とする、請求項1に記載の専門用語判別装置。
  3. 前記専門性判定部は、前記構成語間の意味距離が第1の閾値より大きい場合に、前記複合語が専門用語であると判定することを特徴とする、請求項1または2に記載の専門用語判別装置。
  4. 前記複合語は、複数の前記構成語間の意味距離を有し、
    前記専門性判定部は、複数の前記構成語間の意味距離の中で最大値である最大意味距離と前記第1の閾値とを比較して、前記複合語が専門用語であることを判定することを特徴とする、請求項3に記載の専門用語判別装置。
  5. 前記専門性判定部は、前記構成語間の意味距離が第2の閾値より小さい場合に、前記複合語が専門用語であると判定することを特徴とする、請求項1または2に記載の専門用語判別装置。
  6. 前記複合語は、複数の前記構成語間の意味距離を有し、
    前記専門性判定部は、複数の前記構成語間の意味距離の中で最小値である最小意味距離と前記第2の閾値とをそれぞれ比較して、前記複合語が専門用語であることを判定することを特徴とする、請求項5に記載の専門用語判別装置。
  7. 複合語の専門性を判別する専門用語判別方法であって、
    構成語を組み合わせて構成される複合語を、前記各構成語に分割する複合語分割ステップと、
    前記分割された構成語間の意味距離を計算する意味距離計算ステップと、
    前記計算された意味距離の大きさに基づいて、前記複合語の専門性を判定する専門性判定ステップと、
    を備えることを特徴とする、専門用語判別方法。
  8. 前記意味距離計算ステップは、単語間の距離データを記憶する距離データ記憶部に記憶された距離データを用いて、前記構成語間の意味距離を計算することを特徴とする、請求項7に記載の専門用語判別方法。
  9. 前記専門性判定ステップは、前記構成語間の意味距離が第1の閾値より大きい場合に、前記複合語が専門用語であると判定することを特徴とする、請求項7または8に記載の専門用語判別方法。
  10. 前記複合語は、複数の前記構成語間の意味距離を有し、
    前記専門性判定ステップは、
    複数の前記構成語間の意味距離の中で最大値である最大意味距離と前記第1の閾値とを比較して、前記複合語が専門用語であることを判定することを特徴とする、請求項9に記載の専門用語判別方法。
  11. 前記専門性判定ステップは、前記構成語間の意味距離が第2の閾値より小さい場合に、前記複合語が専門用語であると判定することを特徴とする、請求項7または8に記載の専門用語判別方法。
  12. 前記複合語は、複数の前記構成語間の意味距離を有し、
    前記専門性判定ステップは、
    複数の前記構成語間の意味距離の中で最小値である最小意味距離と前記第2の閾値とをそれぞれ比較して、前記複合語が専門用語であることを判定することを特徴とする、請求項11に記載の専門用語判別方法。

JP2006190629A 2006-07-11 2006-07-11 専門用語判別装置および専門用語判別方法 Expired - Fee Related JP4961869B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006190629A JP4961869B2 (ja) 2006-07-11 2006-07-11 専門用語判別装置および専門用語判別方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006190629A JP4961869B2 (ja) 2006-07-11 2006-07-11 専門用語判別装置および専門用語判別方法

Publications (2)

Publication Number Publication Date
JP2008021016A true JP2008021016A (ja) 2008-01-31
JP4961869B2 JP4961869B2 (ja) 2012-06-27

Family

ID=39076907

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006190629A Expired - Fee Related JP4961869B2 (ja) 2006-07-11 2006-07-11 専門用語判別装置および専門用語判別方法

Country Status (1)

Country Link
JP (1) JP4961869B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011039985A (ja) * 2009-08-18 2011-02-24 Toshiba Corp 文書処理装置およびプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03116374A (ja) * 1989-09-29 1991-05-17 Ricoh Co Ltd 専門用語抽出システム
JPH03127176A (ja) * 1989-10-12 1991-05-30 Ricoh Co Ltd キーワード抽出装置
JPH06301722A (ja) * 1993-04-13 1994-10-28 Matsushita Electric Ind Co Ltd 形態素解析装置及びキーワード抽出装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03116374A (ja) * 1989-09-29 1991-05-17 Ricoh Co Ltd 専門用語抽出システム
JPH03127176A (ja) * 1989-10-12 1991-05-30 Ricoh Co Ltd キーワード抽出装置
JPH06301722A (ja) * 1993-04-13 1994-10-28 Matsushita Electric Ind Co Ltd 形態素解析装置及びキーワード抽出装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011039985A (ja) * 2009-08-18 2011-02-24 Toshiba Corp 文書処理装置およびプログラム

Also Published As

Publication number Publication date
JP4961869B2 (ja) 2012-06-27

Similar Documents

Publication Publication Date Title
JP6820058B2 (ja) 音声認識方法、装置、デバイス、及び記憶媒体
US10706230B2 (en) System and method for inputting text into electronic devices
US11343569B2 (en) System and method for context aware detection of objectionable speech in video
US10430610B2 (en) Adaptive data obfuscation
JP2021111415A (ja) テキストテーマ生成方法、テキストテーマ生成装置、電子機器、記憶媒体およびコンピュータプログラム
CN112989055B (zh) 文本识别方法、装置、计算机设备和存储介质
RU2679988C1 (ru) Извлечение информационных объектов с помощью комбинации классификаторов
EP2643770A2 (en) Text segmentation with multiple granularity levels
JP5125662B2 (ja) クエリ変換方法および検索装置
JP2009075791A (ja) 機械翻訳を行う装置、方法、プログラムおよびシステム
TW201606750A (zh) 使用外國字文法的語音辨識
JP2018045537A (ja) 検索プログラム、検索装置および検索方法
JP6867963B2 (ja) 要約評価装置、方法、プログラム、及び記憶媒体
JP4961869B2 (ja) 専門用語判別装置および専門用語判別方法
JP2009059300A (ja) 訳語学習のためのデータを作成する装置、方法、およびプログラム
JP4793931B2 (ja) 相互に関係する固有表現の組抽出装置及びその方法
CN113128224B (zh) 一种中文纠错方法、装置、设备以及可读存储介质
JP4646328B2 (ja) 関係情報抽出装置及びその方法
CN109710927B (zh) 命名实体的识别方法、装置、可读存储介质及电子设备
JP4793932B2 (ja) 相互に関係する固有表現の組抽出装置及びその方法
JP2005173933A (ja) 中国語解析装置、中国語解析方法および中国語解析プログラム
KR20210031094A (ko) 트리 기반 이상치 탐지 장치 및 방법, 컴퓨터 프로그램
JP6881077B2 (ja) 判別プログラム、判別装置及び判別方法
JP5557469B2 (ja) 文字検索装置、文字検索システム、文字検索方法、入力端末装置、検索サーバおよびプログラム
JP2004234512A (ja) トピック境界決定方法及び装置及びトピック境界決定プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080821

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110719

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110915

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120228

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120312

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150406

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees