JP2001075964A - 情報処理装置および情報処理方法、並びに記録媒体 - Google Patents

情報処理装置および情報処理方法、並びに記録媒体

Info

Publication number
JP2001075964A
JP2001075964A JP24546199A JP24546199A JP2001075964A JP 2001075964 A JP2001075964 A JP 2001075964A JP 24546199 A JP24546199 A JP 24546199A JP 24546199 A JP24546199 A JP 24546199A JP 2001075964 A JP2001075964 A JP 2001075964A
Authority
JP
Japan
Prior art keywords
word
function
registered
similarity
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP24546199A
Other languages
English (en)
Inventor
Naoto Iwahashi
直人 岩橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP24546199A priority Critical patent/JP2001075964A/ja
Priority to EP00956860A priority patent/EP1146439A4/en
Priority to PCT/JP2000/005938 priority patent/WO2001016794A1/ja
Priority to KR1020017005442A priority patent/KR20010075669A/ko
Priority to US09/830,532 priority patent/US7010477B1/en
Priority to AU68675/00A priority patent/AU6867500A/en
Priority to CNB008021880A priority patent/CN1158621C/zh
Priority to IDW20010924A priority patent/ID29197A/id
Publication of JP2001075964A publication Critical patent/JP2001075964A/ja
Priority to US11/179,129 priority patent/US20050251385A1/en
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

(57)【要約】 【課題】 辞書に登録されていない単語が入力された場
合にも、その単語と、辞書に登録されている単語との類
似度を計算する。 【解決手段】 単語集合出力部3においては、単語が、
その単語が表す物事を表現する関数である概念表記関数
とともに、最適単語列出力部4に入力され、最適単語列
出力部4では、単語集合出力部3からの単語と、辞書に
登録されている登録単語との類似度が、それぞれの概念
表記関数に基づいて演算される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、情報処理装置およ
び情報処理方法、並びに記録媒体に関し、特に、例え
ば、大規模な辞書がなくても、多くの単語について、単
語どうしの類似度の計算を可能とし、さらに、複雑な文
法規則等がなくても、単語の集合を、適切な意味となる
単語の並び(単語列)に変換することができるようにす
る情報処理装置および情報処理方法、並びに記録媒体に
関する。
【0002】
【従来の技術】単語どうしの意味的な類似度は、自然言
語処理技術において、様々な用途で用いられている。
【0003】即ち、例えば、翻訳処理の手法として、大
量の対訳用例文を、あらかじめ用意しておき、その対訳
用例文の中から、入力文に最も類似するものを探索し、
その探索した対訳用例文を修正することで、入力文を翻
訳した翻訳文を生成する方法があるが、この方法におい
て、入力文と対訳用例文との類似度は、その入力文を構
成する各単語と、その単語に対応する、対訳用例文を構
成する単語との類似度(単語類似度)に基づいて計算さ
れる。
【0004】単語類似度の計算方法としては、木状また
はネットワーク状のシソーラスを用いるものや、単語
の、文中での共起情報を用いるものなどが知られてい
る。
【0005】シソーラスを用いる方法では、例えば、シ
ソーラスにおいて、単語類似度を計算する2つの単語そ
れぞれに相当するノードを結ぶ最短のパスを構成するア
ークの数が求められ、そのアークの数の逆数が、単語類
似度とされる。また、共起情報を用いる方法では、大量
の文について、その文に現れる単語の共起情報を登録し
ておき、その共起情報から得られる統計量(単語類似度
を計算しようとしている2つの単語それぞれと共起しや
すい単語の統計量)に基づいて、単語類似度が求められ
る。
【0006】なお、シソーラスを用いて単語類似度を計
算する方法については、例えば、飯田仁、”英語前置詞
句係り先の用例主導あいまい性解消”、電子情報通信学
会論文誌、D-II, Vol.J77-D-II, No.3, pp.557-565, 19
94等に、共起情報を用いて単語類似度を計算する方法に
ついては、例えば、Donald Hindle, "Noun classificat
ion from predicate-argument structures", Proceedin
gs of Annual meetingof the Association for Computa
tional Linguistics, pp.268-275, 1990等に、それぞ
れ、その詳細が記載されている。
【0007】
【発明が解決しようとする課題】ところで、シソーラス
や共起情報を用いる方法では、シソーラスに登録されて
いない単語や共起情報が登録されていない単語(以下、
適宜、未登録単語という)については、単語類似度を計
算することができない。従って、シソーラスや共起情報
を用いて言語処理を行う言語処理システムにおいて、豊
富な言語能力を実現しようとする場合には、莫大な数の
学習用のサンプルを用いて学習を行い、シソーラスや共
起情報を登録した辞書を生成する必要がある。
【0008】しかしながら、言語処理システムにおいて
は、少ない学習用のサンプルだけで柔軟で、かつ効率的
な学習を行い、豊富な言語能力を実現することができる
のが望ましく、そのためには、未登録単語についても、
学習済みの単語との単語類似度を計算することが要求さ
れ、さらに、未登録単語を含む単語列と、学習済みの文
法規則から得られる単語列との類似度(単語列類似度)
を計算することも要求される。
【0009】一方、例えば、福井直樹、”極小モデルの
展開−言語の説明理論をめざして”、岩波講座 言語の
科学6生成文法 第4章、岩波書店、1998等では、
人間が、複数の単語の集合を、文法に合致した適切な順
序に並べる操作は、人間の言語能力における根源的な心
的操作とみなすことができることが記載されているが、
その心的機能のメカニズムの解明は、理論言語学におい
て、重要な研究テーマとして扱われている。
【0010】また、人間の言語機能(の全部または一
部)を実現(模擬)するシステムの開発においても、人
間が行うのと同様の単語の並びを生成する機能の実現が
求められている。
【0011】しかしながら、現状では、言語処理システ
ムにおける学習の初期段階、即ち、文法規則の学習が不
十分であったり、処理対象の単語が、学習用のサンプル
として与えられていない段階においては、単語類似度、
さらには、単語列類似度を計算することができず、適切
な単語の並び(単語列)を得ることが困難である。ま
た、不十分な文法規則によって得られる単語列を出力す
ることができるだけでは、システムの言語の表現能力が
限定されたものとなる。
【0012】以上から、学習によって得られた辞書に登
録されていない単語についても、辞書に登録されている
単語(以下、適宜、登録単語という)との単語類似度を
計算し、さらに、その単語類似度に基づく単語のクラス
タリングを行うことができるようにして、学習済みの文
法に、より一般性をもたせる手法が求められている。
【0013】本発明は、このような状況に鑑みてなされ
たものであり、大規模な辞書がなくても、多くの単語に
ついて、単語どうしの類似度の計算を可能とし、さら
に、複雑な文法規則等がなくても、単語の集合を、適切
な意味となる単語列に変換することができるようにする
ものである。
【0014】
【課題を解決するための手段】本発明の第1の情報処理
装置は、単語を、その単語が表す物事を表現する関数で
ある概念表記関数とともに入力する入力手段と、概念表
記関数に基づいて、単語と登録単語との類似度である単
語類似度を演算する単語類似度演算手段とを含むことを
特徴とする。
【0015】辞書には、登録単語を、その登録単語につ
いての概念表記関数とともに記憶させておくことができ
る。
【0016】第1の情報処理装置には、辞書を記憶して
いる辞書記憶手段をさらに設けることができる。
【0017】概念表記関数は、単語が表す物事から得ら
れる情報を表現する関数とすることができる。
【0018】また、概念表記関数は、単語が表す物事か
ら受ける刺激を感知する感知手段の出力から得られる情
報を表現する関数とすることができる。
【0019】感知手段は、光若しくは音を電気信号に変
換するデバイス、触覚センサ、温度センサ、または加速
度センサとすることができ、この場合、概念表記関数
は、感知手段によって、単語が表す物事を観測すること
によって得られるパラメータを表現する関数とすること
ができる。
【0020】概念表記関数は、確率密度関数または離散
確率分布関数とすることができる。
【0021】単語類似度演算手段には、単語と登録単語
との単語類似度を、その単語および登録単語の概念表記
関数どうしのバタチャリア(Bhattacharyya)距離または
カルバックダイバージェンスに基づいて演算させること
ができる。
【0022】入力手段には、単語の集合である単語集合
を、各単語についての概念表記関数とともに入力させ、
辞書は、複数の登録単語を並べた登録単語列の集合を、
各登録単語についての概念表記関数とともに記憶させて
おくことができ、この場合、第1の情報処理装置には、
単語集合を構成する単語を並べた単語列を生成する単語
列生成手段と、単語列を構成する各単語と、その単語に
対応する、登録単語列を構成する登録単語との単語類似
度から、単語列と登録単語列との類似度である単語列類
似度を演算する単語列類似度演算手段と、単語列類似度
に基づいて、単語集合を構成する単語を所定の順番で並
べた単語列を出力する出力手段とをさらに設けることが
できる。
【0023】本発明の第1の情報処理方法は、単語を、
その単語が表す物事を表現する関数である概念表記関数
とともに入力する入力ステップと、概念表記関数に基づ
いて、単語と登録単語との類似度である単語類似度を演
算する単語類似度演算ステップとを含むことを特徴とす
る。
【0024】本発明の第1の記録媒体は、単語を、その
単語が表す物事を表現する関数である概念表記関数とと
もに入力する入力ステップと、概念表記関数に基づい
て、単語と登録単語との類似度である単語類似度を演算
する単語類似度演算ステップとを含むプログラムが記録
されていることを特徴とする。
【0025】本発明の第2の情報処理装置は、辞書に登
録する単語である登録単語が表す物事を表現する関数で
ある概念表記関数を生成する関数生成手段と、登録単語
と、その登録単語についての概念表記関数とを対応付け
る対応付け手段とを含むことを特徴とする。
【0026】概念表記関数は、単語が表す物事から得ら
れる情報を表現する関数とすることができる。
【0027】また、概念表記関数は、単語が表す物事か
ら受ける刺激を感知する感知手段の出力から得られる情
報を表現する関数とすることができる。
【0028】感知手段は、光若しくは音を電気信号に変
換するデバイス、触覚センサ、温度センサ、または加速
度センサとし、概念表記関数は、感知手段によって、単
語が表す物事を観測することによって得られるパラメー
タを表現する関数とすることができる。
【0029】概念表記関数は、確率密度関数または離散
確率分布関数とすることができる。
【0030】本発明の第2の情報処理方法は、辞書に登
録する単語である登録単語が表す物事を表現する関数で
ある概念表記関数を生成する関数生成ステップと、登録
単語と、その登録単語についての概念表記関数とを対応
付ける対応付けステップとを含むことを特徴とする。
【0031】本発明の第2の記録媒体は、辞書に登録す
る単語である登録単語が表す物事を表現する関数である
概念表記関数を生成する関数生成ステップと、登録単語
と、その登録単語についての概念表記関数とを対応付け
る対応付けステップとを含むプログラムが記録されてい
ることを特徴とする。
【0032】本発明の第1の情報処理装置および第1の
情報処理方法、並びに第1の記録媒体においては、単語
が、その単語が表す物事を表現する関数である概念表記
関数とともに入力され、その概念表記関数に基づいて、
単語と登録単語との類似度である単語類似度が演算され
る。
【0033】本発明の第2の情報処理装置および第2の
情報処理方法、並びに第2の記録媒体においては、辞書
に登録する単語である登録単語が表す物事を表現する関
数である概念表記関数が生成され、登録単語と、その登
録単語についての概念表記関数とが対応付けられる。
【0034】
【発明の実施の形態】図1は、本発明を適用した最適単
語列出力装置の一実施の形態の構成例を示している。
【0035】この最適単語列出力装置においては、ある
事物を表す単語列を構成する単語の集合(単語集合)か
ら、その事物を適切に表す単語列が出力されるようにな
っている。
【0036】即ち、センサ部1は、ある具体的な物事を
対象として、その事物(以下、適宜、注目事物という)
から受ける刺激を感知するようになっており、その感知
の結果を、前処理部2に出力する。ここで、図1の実施
の形態においては、センサ部1は、光を電気信号に変換
するデバイスとしてのビデオカメラ、音を電気信号に変
換するデバイスとしてのマイク(マイクロフォン)、触
覚センサ、温度センサ、および加速度センサ等から構成
されており、従って、センサ部1では、注目事物の色
や、形、大きさ、位置、方向、速度等が感知される。
【0037】前処理部2では、センサ部1の出力が処理
され、その出力から、特徴パラメータ(特徴ベクトル)
が抽出される。即ち、前処理部2では、センサ部1によ
って、注目事物が観測されることにより得られる情報に
ついての特徴パラメータ(従って、注目事物の色や、
形、大きさ、位置、方向、速度等の、注目事物の特徴を
表すパラメータ)が求められる。この特徴パラメータ
は、単語集合出力部3に供給される。
【0038】単語集合出力部3は、N個の識別器111
乃至11Nと、セレクタ12とから構成され、センサ部
1によって観測された注目事物を表現する単語列を構成
する単語の集合を出力する。
【0039】即ち、識別器11nは、注目事物から得ら
れる特徴パラメータに基づいて、その注目事物をパター
ン認識等により識別し、その識別結果を出力する。具体
的には、識別器11nは、ある単語#nが表す事物を識
別するための識別関数fn(モデル)を記憶しており、
前処理部2からの特徴パラメータを用いて、その識別関
数fnを演算する。そして、識別器11nは、識別関数f
nの演算結果(以下、適宜、関数値という)、識別関数
nによって識別される事物を表す単語#nのテキスト
表記および音声表記、並びに識別関数fnを、単語#n
が表す事物の識別結果として、セレクタ12に出力す
る。
【0040】セレクタ12は、識別器111乃至11N
れぞれからの識別結果を受信すると、その識別結果の中
から、例えば、識別関数f1乃至fNの関数値が所定値以
上のものを選択する。即ち、ここでは、識別関数fn
関数値が大きいほど、注目事物が、単語#nで表現され
るものであることの確からしさが高いこととしており、
セレクタ12は、関数値が所定値以上の識別結果を、注
目事物を表現するのに適切なものとして選択する。
【0041】ここで、注目事物が、例えば、大きな赤い
球であった場合、識別関数f1乃至fNのうち、「大き
い」、「赤い」、「球」という3つの事物をそれぞれ表
現する単語を識別するものの関数値は、いずれも所定値
以上になると考えられる。従って、この場合、セレクタ
12では、そのような3つの識別結果が選択されること
になるが、本実施の形態では、このように、セレクタ1
2において、基本的に、複数の識別結果が選択されるも
のとする。
【0042】セレクタ12は、以上のように、注目事物
を表現する単語それぞれに対応する複数の識別結果を選
択すると、その選択した複数の識別結果を、最適単語列
出力部4に入力する。
【0043】ここで、識別器11nにおいて、単語#n
が表す事物を識別するために用いられる識別関数f
nは、単語#nが表す個々の具体的な事物を観測するこ
とにより得られる特徴パラメータを用いて学習を行うこ
とにより得られるものであり、従って、単語#nが表す
個々の具体的な事物から成る特徴パラメータを代表して
表現する。
【0044】一方、物事を表現する関数を、概念表記関
数ということとすると、識別関数f nは、上述のよう
に、単語#nが表す具体的な各物事から得られる特徴パ
ラメータを代表して表現しており、従って、識別関数f
nは、概念表記関数の一種と捉えることができる。な
お、識別関数fnは、あくまで、概念表記関数としても
捉えることができるだけであり、従って、概念表記関数
として、識別関数fn以外の関数を用いることも可能で
ある。
【0045】また、以下においては、単語wを、適宜、
次のような定義で用いることとする。
【0046】 w=(L,P,C) ・・・(1) 但し、Lは、単語を表現する文字列(テキスト表記)
を、Pは、単語を音声で表現するための表記(音声表
記)を、Cは、単語が表す物事を表現する表記(概念表
記)を、それぞれ表す。
【0047】音声表記Pとしては、例えば、単語を発話
した音声を特徴づける音響パターンの分布を用いて学習
を行うことにより得られるHMM(Hidden Markov Mode
l)等の確率モデルを用いることができる。また、概念表
記Cとしては、概念表記関数である識別関数fnを用い
ることができる。
【0048】なお、音声表記Pとして用いる確率モデル
を生成するための学習方法等については、例えば、Kein
osuke Fukunaga, "Statistical Pattern Recognition",
Academic Press, 1990や、Lawence Rabiner, Biing-Hw
ang Juang(古井監訳)、”音声認識の基礎(上、
下)”、NTTアドバンステクノロジ株式会社、199
5等に、その詳細が記載されている。
【0049】セレクタ12は、注目事物についての複数
の識別結果それぞれを、式(1)で定義する単語の形の
集合として、最適単語列出力部4に供給する。
【0050】即ち、いま、注目事物を適切に表現する複
数の単語を、w1,w2,・・・と表すと、セレクタ12
は、この複数の単語w1,w2,・・・の集合を、最適単
語列出力部4に供給する。
【0051】ここで、複数の単語w1,w2,・・・の集
合(単語集合)Wを、次式のように定義する。
【0052】 W={w1,w2,・・・} ・・・(2) また、複数の単語w1,w2,・・・の並び(単語列)s
を、次式のように定義する。
【0053】 s=[w1,w2,・・・] ・・・(3) さらに、複数の単語列s1,s2,・・・の集合(単語列
集合)Sを、次式のように定義する。
【0054】 S={s1,s2,・・・} ・・・(4) なお、単語集合Wは、複数の単語w1,w2,・・・の集
合であり、その複数の単語w1,w2,・・・の並びに意
味はない(同一の単語からなる単語集合は、その単語の
並びが異なっていても、同一の集合である)。一方、単
語列は、複数の単語w1,w2,・・・の並びであり、そ
の複数の単語w1,w2,・・・の並びに意味がある(同
一の単語からなる単語列であっても、その単語の並びが
異なっていれば、異なる単語列である)。
【0055】最適単語列出力部4は、単語集合出力部3
(セレクタ12)から、注目事物を適切に表現する複数
の単語w1,w2,・・・の集合Wを受信すると、その単
語集合を構成する単語から、注目事物を適切に表現する
単語の並びとしての単語列(あるいは文)(以下、適
宜、最適単語列という)を構成して出力する。
【0056】次に、図2は、図1の最適単語列出力部4
の構成例を示している。
【0057】単語集合出力部3(図1)からの単語集合
(以下、適宜、入力単語集合という)Wは、単語列生成
部21に入力されるようになっており、単語列生成部2
1は、入力単語集合Wを構成する複数の単語(以下、適
宜、入力単語という)w1,w2,・・・すべてを用いて
構成される、単語の順列(以下、適宜、入力単語列とい
う)s1,s2,・・・すべてを生成し、そのすべての単
語列の集合(以下、適宜、入力単語列集合という)S
を、最適単語列探索部22に出力するようになってい
る。ここで、単語集合出力部3が出力する単語集合が、
M個の単語から構成される場合には、単語列生成部21
では、M!通りの単語列が生成されることになる(!は
階乗を表す)。
【0058】最適単語列探索部22は、登録単語列デー
タベース23を参照することにより、単語列生成部21
からの入力単語列集合Sを構成する入力単語列s1
2,・・・から、最適単語列を探索して出力するよう
になっている。
【0059】即ち、最適単語列探索部22は、単語類似
度計算部31、単語列類似度計算部32、および選択部
33から構成され、入力単語列集合Sを構成する入力単
語列s1,s2,・・・それぞれについて、登録単語列デ
ータベース23に登録されている単語列(登録単語列)
それぞれとの単語列類似度を計算し、入力単語列s1
2,・・・の中から、最も大きい単語列類似度(値が
大きいほど、単語列どうしの類似度が高いものとする)
が得られるものを選択して、最適単語列として出力する
ようになっている。
【0060】具体的には、単語類似度計算部31は、入
力単語列siを構成する各入力単語wijと、登録単語列
を構成する、入力単語wijに対応する単語(入力単語w
ijと同一の順番に位置する単語)との単語類似度を、概
念表記関数に基づいて演算し、単語列類似度計算部32
に出力するようになっている。
【0061】ここで、単語wijとは、単語列siの先頭
からj番目に位置する単語を意味する。
【0062】単語列類似度計算部32は、入力単語列s
iと登録単語列の単語列類似度を、入力単語列siを構成
する各単語と、その単語に対応する、登録単語列を構成
する単語との単語類似度に基づいて演算し、選択部33
に出力するようになっている。
【0063】選択部33は、入力単語列集合Sを構成す
る入力単語列s1,s2,・・・のうち、登録単語列との
単語列類似度を最も大きくするものを選択し、最適単語
列として出力するようになっている。
【0064】登録単語列データベース23は、例えば、
図3に示すような単語辞書と単語列辞書を記憶してい
る。即ち、単語辞書には、図3(A)に示すように、登
録単語が、式(1)で定義したように、テキスト表記、
音声表記、および概念表記を対応付けた形で登録されて
いる。単語列辞書には、複数の登録単語を、ある意味と
なる並びに並べた単語列(登録単語列)が登録されてい
る。
【0065】なお、登録単語列が登録されている単語列
辞書は、必ずしも、登録単語列データベース23に記憶
させておく必要はない。即ち、登録単語列は、登録単語
列データベース23に、文法等の規則を登録しておけ
ば、その規則に基づいて、単語辞書に登録された登録単
語を並べることにより作成することができる。
【0066】次に、図2の最適単語列出力部4の処理に
ついて説明する。
【0067】単語列生成部21は、単語集合出力部3
(図1)から、入力単語集合Wを受信すると、その入力
単語集合Wを構成する複数の入力単語w1,w2,・・・
を用いて構成される入力単語列s1,s2,・・・を生成
し、その単語列の集合(入力単語列集合)Sを、最適単
語列探索部22に出力する。
【0068】最適単語列探索部22は、単語列生成部2
1から入力単語列集合Sを受信すると、登録単語列デー
タベース23を参照しながら、入力単語列集合Sを構成
する入力単語列s1,s2,・・・の中から、最適単語列
を探索して出力する最適単語列探索処理を行う。
【0069】即ち、図4のフローチャートに示すよう
に、最適単語列探索処理では、まず最初に、ステップS
1において、単語類似度計算部31は、入力単語列集合
Sの中から、ある単語列siを、注目単語列として選択
し、ステップS2に進む。ステップS2では、単語類似
度計算部31は、登録単語列データベース23の辞書か
ら、ある登録単語列を、注目登録単語列として選択し、
注目単語列siを構成する各単語と、その単語に対応す
る、注目登録単語列の単語との単語類似度を、概念表記
関数に基づいて計算する。
【0070】即ち、いま、単語類似度を計算しようとし
ている注目単語列または登録単語列の単語を、それぞれ
w_1またはw_2と表すと、これらの単語w_1,w
_2は、式(1)から次式で表すことができる。
【0071】 w_1=(L_1,P_1,C_1) w_2=(L_2,P_2,C_2) ・・・(5) 但し、L_1,P_1,C_1は、単語w_1のテキス
ト表記、音声表記、概念表記を、それぞれ表す。同様
に、L_2,P_2,C_2は、単語w_2のテキスト
表記、音声表記、概念表記を、それぞれ表す。
【0072】概念表記として用いる概念表記関数として
は、例えば、ガウス確率分布関数を用いることができ、
いま、平均ベクトルがxで、共分散行列がΣのガウス分
布確率関数を、N(x,Σ)で表すと、式(5)の概念
表記C_1,C_2は、次式で表すことができる。
【0073】 C_1=N(x1,Σ1) C_2=N(x2,Σ2) ・・・(6) 但し、x1またはΣ1は、単語w_1が表す個々の具体的
な事物から得られる特徴パラメータの平均値または共分
散行列をそれぞれ表す。同様に、x2またはΣ2は、単語
w_2が表す個々の具体的な事物から得られる特徴パラ
メータの平均値または共分散行列をそれぞれ表す。
【0074】なお、本実施の形態では、上述したよう
に、入力単語の概念表記関数は、その入力単語を識別す
るための識別関数に等しく、従って、ここでは、図1の
識別器11nが有する識別関数fnは、ガウス確率分布
関数によって表される。
【0075】ここで、注目単語列の単語w_1が表す事
物を識別するための識別関数としてのガウス確率分布関
数N(x1,Σ1)を規定する平均値x1および共分散行
列Σ1は、その単語w_1が表す個々の具体的な事物か
ら得られる特徴パラメータを用いて学習を行うことによ
り求められる。また、登録単語列の単語w_2が表す事
物についての概念表記関数としてのガウス確率分布関数
N(x2,Σ2)を規定する平均値x2および共分散行列
Σ2も、その単語w_2が表す個々の具体的な事物から
得られる特徴パラメータを用いて学習を行うことにより
求められる。
【0076】概念表記関数として、ガウス確率分布関数
を用いる場合、2つの単語w_1とw_2との単語類似
度Rw(w_1,w_2)は、それぞれの概念表記関数
としてのガウス分布のバタチャリア(Bhattacharyya)距
離を用いて、例えば、次式で計算することができる。
【0077】
【数1】 ・・・(7) 但し、ln(x)は、xの自然対数を表す。
【0078】ここで、ガウス分布のバタチャリア距離の
計算にあたっては、一般には、平均ベクトルも考慮され
るが、ここでは、2つの単語についてのガウス分布どう
しの相対的な形状の差異(2つのガウス分布の絶対的な
位置を無視して比較を行った場合、即ち、2つのガウス
分布の平行移動のみを許して比較した場合に(従って、
回転や縮小、拡大は除く)、その2つのガウス分布の形
状が似ているかどうか)に注目するため、式(7)は、
共分散行列のみを用いた式になっている。
【0079】即ち、式(7)によれば、単語w_1また
はw_2それぞれが表す事物から得られる特徴パラメー
タのガウス分布どうしの相対的な形状が似ているかどう
かによって、2つの単語w_1とw_2との単語類似度
w(w_1,w_2)が求められる。
【0080】なお、式(7)によって求められる単語類
似度Rw(w_1,w_2)は、単語w_1またはw_
2それぞれについてのガウス分布どうしの相対的な形状
が似ているほど、即ち、単語w_1とw_2の意味的な
類似性が高いほど、大きな値となる。
【0081】ステップS2において、注目単語列を構成
する各単語と、その単語に対応する、注目登録単語列の
単語との単語類似度が計算されると、ステップS3に進
み、単語類似度計算部31は、すべての登録単語列を、
注目登録単語列として、ステップS2における単語類似
度の計算を行ったかどうかを判定する。ステップS3に
おいて、まだ、すべての登録単語列を、注目登録単語列
として、ステップS2における単語類似度の計算を行っ
ていないと判定された場合、ステップS2に戻り、まだ
注目登録単語列としていない登録単語列を、新たに注目
登録単語列として、以下、同様の処理が繰り返される。
【0082】また、ステップS3において、すべての登
録単語列を、注目登録単語列として、ステップS2にお
ける単語類似度の計算を行ったと判定された場合、ステ
ップS4に進み、入力単語列集合の中に、まだ、注目単
語列としていない入力単語列があるかどうかが判定され
る。ステップS4において、入力単語列集合の中に、ま
だ、注目単語列としていない入力単語列があると判定さ
れた場合、ステップS1に戻り、その、まだ注目単語列
としていない入力単語列を、新たに注目単語列として、
以下、ステップS2以降の処理を繰り返す。
【0083】一方、ステップS4において、入力単語列
集合の中に、まだ、注目単語列としていない入力単語列
がないと判定された場合、即ち、入力単語列集合を構成
するすべての入力単語列について、登録単語列データベ
ース23に登録されている登録単語列それぞれを構成す
る単語との単語類似度の計算を行った場合、ステップS
5に進み、単語列類似度計算部32において、入力単語
列集合を構成する各単語列について、各登録単語列との
単語列類似度が計算される。
【0084】即ち、単語類似度計算部31において求め
られた単語類似度は、単語列類似度計算部32に供給さ
れ、単語列類似度計算部32では、ステップS5におい
て、単語類似度計算部31からの単語類似度を用いて、
入力単語列集合を構成する各単語列について、各登録単
語列との単語列類似度が計算される。
【0085】即ち、入力単語列集合を構成するある入力
単語列をs1とするとともに、ある登録単語列をs2とす
る。さらに、単語列s1またはs2を構成する単語の数
を、それぞれL(s1)またはL(s2)と表すと、単語
列類似度計算部32では、2つの単語列s1とs2の単語
列類似度Rs(s1,s2)が、例えば、次式にしたがっ
て計算される。 L(s1)=L(s2)の場合
【0086】
【数2】 L(s1)≠L(s2)の場合 Rs(s1,s2)=0 ・・・(8) 但し、単語wijは、上述したように、単語列siの先頭
からj番目の単語を意味する。
【0087】従って、入力単語列s1と、登録単語列s2
とが、同一の数の単語で構成される場合には、それらの
単語列類似度Rs(s1,s2)は、入力単語列s1を構成
する各単語と、その単語に対応する、登録単語列s2
構成する単語との単語類似度の総和として求められる。
また、入力単語列s1と、登録単語列s2とが、異なる数
の単語で構成される場合には、それらの単語列類似度R
s(s1,s2)は、0とされる。
【0088】なお、式(8)によって求められる、単語
列s1とs2の単語列類似度Rs(s1,s2)も、式
(7)によって求められる単語類似度Rw(w_1,w
_2)と同様に、単語列s1とs2の意味的な類似性が高
いほど、大きな値となる。
【0089】単語列類似度計算部32は、ステップS5
において、入力単語列集合を構成する各単語列につい
て、各登録単語列との単語列類似度を計算すると、その
単語列類似度を、選択部33に供給する。
【0090】選択部33では、ステップS6において、
単語列類似度計算部32からの単語列類似度の最大値が
求められ、その最大の単語列類似度が得られる入力単語
列と登録単語列の組合せが選択される。そして、ステッ
プS7に進み、選択部33は、ステップS6で選択した
入力単語列を、最適単語列として出力し、最適単語列探
索処理を終了する。
【0091】即ち、入力単語列集合、または登録単語列
データベース23に登録されている登録単語列の集合
を、それぞれSまたはS’とし、それぞれが、次のよう
に表されるとする。
【0092】 S={s1,s2,・・・} S’={s1’,s2’,・・・} ・・・(9) 但し、s1,s2,・・・は、それぞれ入力単語列を表
し、s1’,s2’,・・・は、それぞれ登録単語列を表
す。
【0093】この場合、選択部33では、次式にしたが
って、入力単語列集合Sの中から、最適単語列s
suitableが求められる。
【0094】
【数3】 ・・・(10) 但し、max{x}は、xの最大値を表し、argma
x{x}は、Xの最大値を与える引数を表す。
【0095】以上のように、最適単語列出力部4に対し
て、単語を、その単語が表す物事を表現する概念表記関
数とともに入力し、最適単語列出力部4において、その
入力単語と、登録単語列データベース23に登録されて
いる登録単語との単語類似度を、概念表記関数に基づい
て演算するようにしたので、入力単語と同一の登録単語
が、登録単語列データベース23に登録されていなくて
も、入力単語と登録単語との単語類似度を計算し、さら
に、入力単語列と登録単語列との単語列類似度も計算す
ることができる。その結果、大規模な辞書がなくても、
多くの単語について、単語どうしの類似度の計算が可能
となり、さらに、複雑な文法規則等がなくても、単語の
集合を、適切な意味となる単語列に変換することができ
る。
【0096】即ち、例えば、2次元の方向を表す特徴パ
ラメータ空間において、単語「上」、「下」、「左」、
「右」の概念表記関数としてのガウス分布は、図5に示
すように、上、下、左、右方向に行くほど、それぞれ出
現確率が高くなるようなものになると考えられる。な
お、図5においては、図面に対して垂直な方向が確率の
高さを表し、また、確率が等しい部分を、線で結んで表
してある。
【0097】いま、登録単語列データベース23におい
て、登録単語として、「左」と「上」が登録されている
とともに、登録単語列として、「左上」が登録されてい
るとして、単語集合として、単語列生成部21(図2)
に、登録単語列データベース23には登録されていない
単語「下」および「右」の集合が入力されたとする。
【0098】この場合、単語列生成部21では、入力単
語列として、「下右」と「右下」とが生成され、最適単
語列探索部22に供給される。
【0099】最適単語列探索部22では、単語類似度計
算部31において、入力単語列「下右」を構成する単語
それぞれと、その単語に対応する、登録単語列「左上」
を構成する単語との単語類似度が計算されるとともに、
入力単語列「右下」を構成する単語それぞれと、その単
語に対応する、登録単語列「左上」を構成する単語との
単語類似度が計算される。
【0100】即ち、入力単語列「下右」については、単
語「下」と単語「左」との単語類似度、および単語
「右」と単語「上」との単語類似度が計算される。ま
た、入力単語「右下」については、単語「右」と単語
「左」との単語類似度、および単語「下」と単語「上」
との単語類似度が計算される。
【0101】そして、単語列類似度計算部32におい
て、単語「下」と単語「左」との単語類似度、および単
語「右」と単語「上」との単語類似度の和が、入力単語
列「下右」と登録単語列「左上」との単語列類似度とし
て計算されるとともに、単語「右」と単語「左」との単
語類似度、および単語「下」と単語「上」との単語類似
度の和が、入力単語列「右下」と登録単語列「左上」と
の単語列類似度として計算される。
【0102】いま、図5に示した単語「上」、「下」、
「左」、「右」の概念表記関数としてのガウス分布か
ら、それぞれの形状の概形は、図6に示すようなものと
なる。図6から明らかなように、単語「上」と「下」の
ガウス分布の形状は類似しており、また、単語「左」と
「右」のガウス分布の形状も類似しているが、単語
「上」と、「右」や「左」のガウス分布の形状は似てお
らず、単語「下」と「右」や「左」のガウス分布の形状
も似ていない。
【0103】従って、単語「右」と単語「左」との単語
類似度、および単語「下」と単語「上」との単語類似度
は、いずれも大きな値となるが、単語「下」と単語
「左」との単語類似度、および単語「右」と単語「上」
との単語類似度は、いずれも小さな値となる。
【0104】その結果、単語「右」と単語「左」との単
語類似度、および単語「下」と単語「上」との単語類似
度の和である、入力単語列「右下」と登録単語列「左
上」との単語列類似度は大きな値となり、単語「下」と
単語「左」との単語類似度、および単語「右」と単語
「上」との単語類似度の和である、入力単語列「下右」
と登録単語列「左上」との単語列類似度は小さな値とな
る。
【0105】従って、選択部33では、単語列類似度が
大きい、入力単語列「右下」と登録単語列「左上」の組
が選択され、入力単語列「右下」が、最適単語列として
出力される。即ち、入力単語列としては、「下右」と
「右下」が得られるが、これらのうち、単語の並びとし
てより適切な「右下」が、最適単語列として出力され
る。
【0106】また、例えば、登録単語列データベース2
3において、登録単語として、「赤い」と「靴」が登録
されているとともに、登録単語列として、「赤い靴」が
登録されているとして、単語集合として、単語列生成部
21に、登録単語列データベース23には登録されてい
ない単語「白い」と、登録単語列データベース23に登
録されている単語「靴」の集合が入力された場合でも、
上述の場合と同様にして、単語列「白い靴」が、最適単
語列として出力されることになる。
【0107】以上のように、登録単語列データベース2
3に登録されていない入力単語について、単語類似度を
計算し、さらに、そのような入力単語を含む入力単語列
について、単語列類似度も計算することができるので、
大規模な辞書がなくても、多くの単語について、単語ど
うしの類似度の計算が可能となり、さらに、複雑な文法
規則や、入力単語列と同一の単語からなる単語列が、登
録単語列として登録されていなくても、単語の集合を、
適切な意味となる単語列(最適単語列)に変換すること
ができる。
【0108】次に、図7は、図2の登録単語列データベ
ース23に記憶させる単語辞書および単語列辞書を作成
するための学習処理を行う学習装置の一実施の形態の構
成例を示している。
【0109】センサ部41は、図2のセンサ部1と同様
に構成され、学習の対象とする具体的な事物(以下、適
宜、学習対象事物という)から受ける刺激を感知するよ
うになっており、その感知の結果を、前処理部42に出
力するようになっている。
【0110】前処理部42は、図2の前処理部2と同様
に構成され、センサ部1の出力を処理し、その出力か
ら、特徴パラメータを抽出するようになっている。即
ち、前処理部42は、センサ部41によって、学習対象
事物が観測されることにより得られる情報についての特
徴パラメータを求め、学習部43に出力する。
【0111】学習部43には、前処理部42から、学習
対象事物についての特徴パラメータが供給される他、テ
キスト入力部44または音声入力部45から、学習対象
事物を表現する単語列を構成する各単語を表す文字列ま
たは音声が、それぞれ供給されるようになっている。そ
して、学習部43は、学習対象事物を表現する単語列を
構成する各単語についての特徴パラメータを用いて学習
を行うことにより、各単語によって表される事物を表現
する概念表記関数を生成するとともに、テキスト入力部
44または音声入力部45から供給される文字列または
音声に基づいて、テキスト表記または音声表記をそれぞ
れ生成し、各単語についてのテキスト表記、音声表記、
および概念表記関数を対応付けて、図3(B)に示した
ような単語辞書を作成するようになっている。さらに、
学習部43は、学習対象事物を表現する単語列を登録し
た、図3(A)に示したような単語列辞書を作成するよ
うにもなっている。
【0112】テキスト入力部44は、例えば、キーボー
ド等で構成され、学習対象事物を表現する単語列を構成
する各単語を表す文字列を入力するときに操作される。
音声入力部45は、例えば、マイク等で構成され、そこ
には、学習対象事物を表現する単語列を構成する各単語
を発話した音声が入力される。
【0113】次に、図8のフローチャートを参照して、
図7の学習装置による学習処理について説明する。
【0114】まず最初に、ステップS11では、センサ
部41において、学習対象事物から受ける刺激が感知さ
れるとともに、テキスト入力部44または音声入力部4
5から、学習対象事物を表現する単語列を構成する各単
語を表す文字列または音声が、それぞれ入力される。そ
して、センサ部41による感知の結果は、前処理部42
に供給され、テキスト入力部44または音声入力部45
それぞれからの文字列または音声は、いずれも、学習部
43に供給される。
【0115】前処理部42は、センサ部41による感知
の結果を受信すると、ステップS12において、その感
知の結果から、特徴パラメータを抽出し、学習部43に
供給する。
【0116】なお、センサ部41においては、学習しよ
うとしている単語列によって表現される、異なる学習対
象事物(例えば、学習しようとしている単語列が、青い
ボールであれば、具体的な個々の事物としての各種の青
いボール(例えば、青い野球のボールや、青いサッカー
ボールなど)が、ここでいう異なる学習対象事物に該当
する)から受ける刺激が感知され、前処理部42に供給
される。従って、前処理部42では、そのような異なる
学習対象事物から受ける刺激それぞれについて、特徴パ
ラメータが抽出され、学習部43に供給される。従っ
て、学習しようとしている単語列を構成する1つの単語
に注目すれば、前処理部42では、その単語によって表
現される、異なる事物から受ける刺激から得られる複数
の特徴パラメータが抽出され、学習部43に供給され
る。
【0117】学習部43は、学習しようとしている単語
列を構成する各単語について、その単語によって表現さ
れる、異なる事物についての特徴パラメータを受信する
と、ステップS13において、学習しようとしている単
語列を構成する単語それぞれについて得られた複数の特
徴パラメータを用いて学習を行い、その分布を表す、例
えば、そのガウス確率分布関数等を、各単語についての
概念表記関数として求める。そして、学習部43は、テ
キスト入力部44または音声入力部45からの文字列か
ら、学習しようとしている単語列を構成する単語それぞ
れについてのテキスト表記または音声表記を生成し、ス
テップS14において、それらに、各単語の概念表記関
数を対応付けることで、単語辞書を作成するとともに、
学習対象事物を表現する単語列を登録した単語列辞書を
作成し、いま学習の対象となっている単語列を対象とす
る学習処理を終了する。
【0118】なお、ある単語によって表現される、異な
る事物それぞれについての特徴パラメータ、即ち、複数
の特徴パラメータを用いて学習を行う方法としては、例
えば、上述の文献"Statistical Pattern Recognition"
や、”音声認識の基礎(上、下)”等に記載されている
方法を用いることができる。
【0119】次に、上述した一連の処理は、ハードウェ
アにより行うこともできるし、ソフトウェアにより行う
こともできる。一連の処理をソフトウェアによって行う
場合には、そのソフトウェアを構成するプログラムが、
専用のハードウェアとしての最適単語列出力装置や学習
装置に組み込まれているコンピュータや、汎用のコンピ
ュータ等にインストールされる。
【0120】そこで、図9を参照して、上述した一連の
処理を実行するプログラムをコンピュータにインストー
ルし、コンピュータによって実行可能な状態とするため
に用いられる、そのプログラムが記録されている記録媒
体について説明する。
【0121】プログラムは、図9(A)に示すように、
コンピュータ101に内蔵されている記録媒体としての
ハードディスク102や半導体メモリ103に予め記録
しておくことができる。
【0122】あるいはまた、プログラムは、図9(B)
に示すように、フロッピーディスク111、CD-ROM(Com
pact Disc Read Only Memory)112,MO(Magneto opti
cal)ディスク113,DVD(Digital Versatile Disc)1
14、磁気ディスク115、半導体メモリ116などの
記録媒体に、一時的あるいは永続的に格納(記録)して
おくことができる。このような記録媒体は、いわゆるパ
ッケージソフトウエアとして提供することができる。
【0123】なお、プログラムは、上述したような記録
媒体からコンピュータにインストールする他、図9
(C)に示すように、ダウンロードサイト121から、
ディジタル衛星放送用の人工衛星122を介して、コン
ピュータ101に無線で転送したり、LAN(Local Area N
etwork)、インターネットといったネットワーク131
を介して、コンピュータ123に有線で転送し、コンピ
ュータ101において、内蔵するハードディスク102
などにインストールすることができる。
【0124】また、本明細書において、コンピュータに
各種の処理を行わせるためのプログラムを記述するステ
ップは、必ずしもフローチャートとして記載された順序
に沿って時系列に処理する必要はなく、並列的あるいは
個別に実行される処理(例えば、並列処理あるいはオブ
ジェクトによる処理)も含むものである。
【0125】次に、図10は、図9のコンピュータ10
1の構成例を示している。
【0126】コンピュータ101は、図10に示すよう
に、CPU(Central Processing Unit)142を内蔵してい
る。CPU142には、バス141を介して、入出力イン
タフェース145が接続されており、CPU142は、入
出力インタフェース145を介して、ユーザによって、
キーボードやマウス等で構成される入力部147が操作
されることにより指令が入力されると、それにしたがっ
て、図9(A)の半導体メモリ103に対応するROM(Re
ad Only Memory)143に格納されているプログラムを
実行する。あるいは、また、CPU142は、ハードディ
スク102に格納されているプログラム、衛星122若
しくはネットワーク131から転送され、通信部148
で受信されてハードディスク102にインストールされ
たプログラム、またはドライブ149に装着されたフロ
ッピディスク111、CD-ROM112、MOディスク11
3、DVD114、若しくは磁気ディスク115から読み
出されてハードディスク102にインストールされたプ
ログラムを、RAM(Random Access Memory)144にロー
ドして実行する。そして、CPU142は、その処理結果
を、例えば、入出力インタフェース145を介して、LC
D(Liquid CryStal Display)等で構成される表示部14
6に、必要に応じて出力する。
【0127】なお、本実施の形態においては、センサ部
1や41によって感知される事物からの刺激を用いて、
その物事を表現する概念表記関数を求めるようにした
が、概念表記関数は、事物からの刺激ではなく、例え
ば、その事物を表現する単語を発話した音声等を用いて
求めるようにすることも可能である。但し、事物からの
刺激を用いて、その物事を表現する概念表記関数を求め
る場合には、現実世界に存在する具体的な事物と、その
事物を表現する単語とを対応付けることができ、その結
果、例えば、ある事物から受ける刺激を、各種のセンサ
によって感知し、その感知の結果から、その事物を適切
に表現する単語列を出力するようなロボット、その他
の、ユーザや現実世界の環境と関わりながら、言語処理
を行うシステムを実現することが可能となる。
【0128】また、本実施の形態では、概念表記関数と
して、ガウス確率分布関数を用いるようにしたが、概念
表記関数としては、ガウス確率分布関数以外の確率密度
関数、さらには、HMM等に代表される離散確率分布関
数等を用いることも可能である。
【0129】さらに、本実施の形態では、2つの単語ど
うしの単語類似度を、概念表記関数のバタチャリア距離
を用いて求めるようにしたが、単語類似度は、その他、
例えば、概念表記関数のカルバックダイバージェンス等
に基づいて求めることも可能である。即ち、単語類似度
は、2つの単語それぞれの概念表記関数によって表され
る分布等の形状の類似性が反映される物理量に基づいて
求めることが可能である。
【0130】また、本実施の形態では、最適単語列出力
部4による最適単語列の出力方法については、特に言及
しなかったが、最適単語列は、例えば、その最適単語列
を構成する単語の並びの順番で、各単語を表示すること
もできるし、あるいは、音声(合成音)で出力すること
もできる。最適単語列の表示は、各単語のテキスト表記
を用いることで行うことができ、また、最適単語列の音
声による出力は、各単語の音声表記を用いて合成音を生
成することで行うことができる。
【0131】
【発明の効果】本発明の第1の情報処理装置および第1
の情報処理方法、並びに第1の記録媒体によれば、単語
が、その単語が表す物事を表現する関数である概念表記
関数とともに入力され、その概念表記関数に基づいて、
単語と登録単語との類似度である単語類似度が演算され
る。従って、入力された単語と同一の単語が、登録単語
として登録されていなくても、その入力され単語と登録
単語との単語類似度を計算することが可能となる。
【0132】本発明の第2の情報処理装置および第2の
情報処理方法、並びに第2の記録媒体によれば、辞書に
登録する単語である登録単語が表す物事を表現する関数
である概念表記関数が生成され、登録単語と、その登録
単語についての概念表記関数とが対応付けられる。従っ
て、概念表記関数を用いることによって、単語どうしの
類似度を計算することが可能となる。
【図面の簡単な説明】
【図1】本発明を適用した最適単語列出力装置の一実施
の形態の構成例を示すブロック図である。
【図2】図1の最適単語列出力部4の構成例を示すブロ
ック図である。
【図3】図2の登録単語列データベース23に記憶され
た単語辞書および単語列辞書を示す図である。
【図4】図2の最適単語列探索部22が行う最適単語列
探索処理を説明するためのフローチャートである。
【図5】2次元の方向を表す特徴パラメータ空間におけ
るガウス分布を示す図である。
【図6】概念表記関数によって表されるガウス分布の概
形を示す図である。
【図7】本発明を適用した学習装置の一実施の形態の構
成例を示すブロック図である。
【図8】図7の学習装置による学習処理を説明するため
のフローチャートである。
【図9】本発明を適用した記録媒体を説明するための図
である。
【図10】図9のコンピュータ101の構成例を示すブ
ロック図である。
【符号の説明】
1 センサ部, 2 前処理部, 3 単語集合出力
部, 4 最適単語列出力部, 111乃至11N 識別
器, 12 セレクタ, 21 単語列生成部,22
最適単語列探索部, 23 登録単語列データベース,
31 単語類似度計算部, 32 単語列類似度計算
部, 33 選択部, 41 センサ部, 42 前処
理部, 43 学習部, 44 テキスト入力部, 4
5 音声入力部, 101 コンピュータ, 102
ハードディスク, 103 半導体メモリ, 111
フロッピーディスク, 112 CD-ROM, 113 MO
ディスク, 114 DVD, 115 磁気ディスク,
116 半導体メモリ,121 ダウンロードサイ
ト, 122 衛星, 131 ネットワーク,141
バス, 142 CPU, 143 ROM, 144 RA
M, 145 入出力インタフェース, 146 表示
部, 147 入力部, 148 通信部, 149
ドライブ

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 入力された単語について、辞書に登録さ
    れた単語である登録単語との類似度を求める情報処理装
    置であって、 単語を、その単語が表す物事を表現する関数である概念
    表記関数とともに入力する入力手段と、 前記概念表記関数に基づいて、前記単語と登録単語との
    類似度である単語類似度を演算する単語類似度演算手段
    とを含むことを特徴とする情報処理装置。
  2. 【請求項2】 前記辞書は、前記登録単語を、その登録
    単語についての前記概念表記関数とともに記憶している
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 【請求項3】 前記辞書を記憶している辞書記憶手段を
    さらに含むことを特徴とする請求項2に記載の情報処理
    装置。
  4. 【請求項4】 前記概念表記関数は、前記単語が表す物
    事から得られる情報を表現する関数であることを特徴と
    する請求項1に記載の情報処理装置。
  5. 【請求項5】 前記概念表記関数は、前記単語が表す物
    事から受ける刺激を感知する感知手段の出力から得られ
    る情報を表現する関数であることを特徴とする請求項4
    に記載の情報処理装置。
  6. 【請求項6】 前記感知手段は、光若しくは音を電気信
    号に変換するデバイス、触覚センサ、温度センサ、また
    は加速度センサであり、 前記概念表記関数は、前記感知手段によって、前記単語
    が表す物事を観測することによって得られるパラメータ
    を表現する関数であることを特徴とする請求項5に記載
    の情報処理装置。
  7. 【請求項7】 前記概念表記関数は、確率密度関数また
    は離散確率分布関数であることを特徴とする請求項1に
    記載の情報処理装置。
  8. 【請求項8】 前記単語類似度演算手段は、前記単語と
    登録単語との単語類似度を、その単語および登録単語の
    概念表記関数どうしのバタチャリア(Bhattacharyya)距
    離またはカルバックダイバージェンスに基づいて演算す
    ることを特徴とする請求項1に記載の情報処理装置。
  9. 【請求項9】 前記入力手段は、単語の集合である単語
    集合を、各単語についての前記概念表記関数とともに入
    力し、 前記辞書は、複数の登録単語を並べた登録単語列の集合
    を、各登録単語についての前記概念表記関数とともに記
    憶しており、 前記単語集合を構成する単語を並べた単語列を生成する
    単語列生成手段と、 前記単語列を構成する各単語と、その単語に対応する、
    前記登録単語列を構成する登録単語との前記単語類似度
    から、前記単語列と登録単語列との類似度である単語列
    類似度を演算する単語列類似度演算手段と、 前記単語列類似度に基づいて、前記単語集合を構成する
    単語を所定の順番で並べた単語列を出力する出力手段と
    をさらに含むことを特徴とする請求項1に記載の情報処
    理装置。
  10. 【請求項10】 入力された単語について、辞書に登録
    された単語である登録単語との類似度を求める情報処理
    方法であって、 単語を、その単語が表す物事を表現する関数である概念
    表記関数とともに入力する入力ステップと、 前記概念表記関数に基づいて、前記単語と登録単語との
    類似度である単語類似度を演算する単語類似度演算ステ
    ップとを含むことを特徴とする情報処理方法。
  11. 【請求項11】 入力された単語について、辞書に登録
    された単語である登録単語との類似度を求める情報処理
    を、コンピュータに行わせるためのプログラムが記録さ
    れている記録媒体であって、 単語を、その単語が表す物事を表現する関数である概念
    表記関数とともに入力する入力ステップと、 前記概念表記関数に基づいて、前記単語と登録単語との
    類似度である単語類似度を演算する単語類似度演算ステ
    ップとを含むプログラムが記録されていることを特徴と
    する記録媒体。
  12. 【請求項12】 入力された単語との類似度を計算する
    ために用いる辞書を作成する情報処理装置であって、 前記辞書に登録する単語である登録単語が表す物事を表
    現する関数である概念表記関数を生成する関数生成手段
    と、 前記登録単語と、その登録単語についての前記概念表記
    関数とを対応付ける対応付け手段とを含むことを特徴と
    する情報処理装置。
  13. 【請求項13】 前記概念表記関数は、前記単語が表す
    物事から得られる情報を表現する関数であることを特徴
    とする請求項12に記載の情報処理装置。
  14. 【請求項14】 前記概念表記関数は、前記単語が表す
    物事から受ける刺激を感知する感知手段の出力から得ら
    れる情報を表現する関数であることを特徴とする請求項
    13に記載の情報処理装置。
  15. 【請求項15】 前記感知手段は、光若しくは音を電気
    信号に変換するデバイス、触覚センサ、温度センサ、ま
    たは加速度センサであり、 前記概念表記関数は、前記感知手段によって、前記単語
    が表す物事を観測することによって得られるパラメータ
    を表現する関数であることを特徴とする請求項14に記
    載の情報処理装置。
  16. 【請求項16】 前記概念表記関数は、確率密度関数ま
    たは離散確率分布関数であることを特徴とする請求項1
    2に記載の情報処理装置。
  17. 【請求項17】 入力された単語との類似度を計算する
    ために用いる辞書を作成する情報処理方法であって、 前記辞書に登録する単語である登録単語が表す物事を表
    現する関数である概念表記関数を生成する関数生成ステ
    ップと、 前記登録単語と、その登録単語についての前記概念表記
    関数とを対応付ける対応付けステップとを含むことを特
    徴とする情報処理方法。
  18. 【請求項18】 入力された単語との類似度を計算する
    ために用いる辞書を作成する情報処理を、コンピュータ
    に行わせるためのプログラムが記録されている記録媒体
    であって、 前記辞書に登録する単語である登録単語が表す物事を表
    現する関数である概念表記関数を生成する関数生成ステ
    ップと、 前記登録単語と、その登録単語についての前記概念表記
    関数とを対応付ける対応付けステップとを含むプログラ
    ムが記録されていることを特徴とする記録媒体。
JP24546199A 1999-08-31 1999-08-31 情報処理装置および情報処理方法、並びに記録媒体 Withdrawn JP2001075964A (ja)

Priority Applications (9)

Application Number Priority Date Filing Date Title
JP24546199A JP2001075964A (ja) 1999-08-31 1999-08-31 情報処理装置および情報処理方法、並びに記録媒体
EP00956860A EP1146439A4 (en) 1999-08-31 2000-08-31 COMPUTER METHOD AND DEVICE AND RECORDING MEDIUM
PCT/JP2000/005938 WO2001016794A1 (fr) 1999-08-31 2000-08-31 Procede et dispositif informatique et support d'enregistrement
KR1020017005442A KR20010075669A (ko) 1999-08-31 2000-08-31 정보 처리 장치 및 정보 처리 방법, 및 기록 매체
US09/830,532 US7010477B1 (en) 1999-08-31 2000-08-31 Information processing device information processing method, and recording medium
AU68675/00A AU6867500A (en) 1999-08-31 2000-08-31 Information processing device and information processing method, and recording medium
CNB008021880A CN1158621C (zh) 1999-08-31 2000-08-31 信息处理装置、信息处理方法
IDW20010924A ID29197A (id) 1999-08-31 2000-08-31 Aparatus pemrosesan informasi, metode pemrosesan informasi dan medium perekaman
US11/179,129 US20050251385A1 (en) 1999-08-31 2005-07-11 Information processing apparatus, information processing method and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP24546199A JP2001075964A (ja) 1999-08-31 1999-08-31 情報処理装置および情報処理方法、並びに記録媒体

Publications (1)

Publication Number Publication Date
JP2001075964A true JP2001075964A (ja) 2001-03-23

Family

ID=17134016

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24546199A Withdrawn JP2001075964A (ja) 1999-08-31 1999-08-31 情報処理装置および情報処理方法、並びに記録媒体

Country Status (8)

Country Link
US (2) US7010477B1 (ja)
EP (1) EP1146439A4 (ja)
JP (1) JP2001075964A (ja)
KR (1) KR20010075669A (ja)
CN (1) CN1158621C (ja)
AU (1) AU6867500A (ja)
ID (1) ID29197A (ja)
WO (1) WO2001016794A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014029713A (ja) * 2007-12-31 2014-02-13 Mastercard International Inc データベース内に近似文字列照合を実装するための方法およびシステム

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7664628B2 (en) * 2002-12-27 2010-02-16 Casio Computer Co., Ltd. Electronic dictionary with illustrative sentences
US7941009B2 (en) * 2003-04-08 2011-05-10 The Penn State Research Foundation Real-time computerized annotation of pictures
US20070198265A1 (en) * 2006-02-22 2007-08-23 Texas Instruments, Incorporated System and method for combined state- and phone-level and multi-stage phone-level pronunciation adaptation for speaker-independent name dialing
US7984003B2 (en) * 2006-07-21 2011-07-19 Nathaniel Williams Method and system for automated learning through repetition
US8521516B2 (en) * 2008-03-26 2013-08-27 Google Inc. Linguistic key normalization
KR100978693B1 (ko) * 2008-05-20 2010-08-30 야후! 인크. 전자사전 서비스를 제공하는 시스템 및 방법
JP2010154397A (ja) * 2008-12-26 2010-07-08 Sony Corp データ処理装置、データ処理方法、及び、プログラム
JP2015022590A (ja) * 2013-07-19 2015-02-02 株式会社東芝 文字入力装置、文字入力方法、及び文字入力プログラム
CN103812483A (zh) * 2014-01-13 2014-05-21 智坤(江苏)半导体有限公司 Cmos射频开关
JP6722483B2 (ja) * 2016-03-23 2020-07-15 クラリオン株式会社 サーバ装置、情報システム、車載装置

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4479241A (en) * 1981-08-06 1984-10-23 Buckley Bruce S Self-organizing circuits for automatic pattern recognition and the like and systems embodying the same
US4916614A (en) 1986-11-25 1990-04-10 Hitachi, Ltd. Sentence translator using a thesaurus and a concept-organized co- occurrence dictionary to select from a plurality of equivalent target words
JPS63225300A (ja) * 1987-03-16 1988-09-20 株式会社東芝 パタ−ン認識装置
US5159637A (en) * 1988-07-27 1992-10-27 Fujitsu Limited Speech word recognizing apparatus using information indicative of the relative significance of speech features
JP2609173B2 (ja) 1990-03-26 1997-05-14 株式会社エイ・ティ・アール自動翻訳電話研究所 用例主導型機械翻訳方法
US5345536A (en) * 1990-12-21 1994-09-06 Matsushita Electric Industrial Co., Ltd. Method of speech recognition
JPH0689302A (ja) 1992-09-08 1994-03-29 Hitachi Ltd 辞書メモリ
GB9223066D0 (en) * 1992-11-04 1992-12-16 Secr Defence Children's speech training aid
JPH06274546A (ja) 1993-03-19 1994-09-30 A T R Jido Honyaku Denwa Kenkyusho:Kk 情報量一致度計算方式
JP2609196B2 (ja) 1993-03-22 1997-05-14 株式会社エイ・ティ・アール自動翻訳電話研究所 類似度計算装置
JP3176750B2 (ja) 1993-04-01 2001-06-18 シャープ株式会社 自然言語の翻訳装置
JP3114468B2 (ja) * 1993-11-25 2000-12-04 松下電器産業株式会社 音声認識方法
JPH08248975A (ja) * 1995-03-09 1996-09-27 Nec Corp 標準パターン学習装置およびこの装置を使用した音声認識装置
US5752001A (en) * 1995-06-01 1998-05-12 Intel Corporation Method and apparatus employing Viterbi scoring using SIMD instructions for data recognition
JP3627299B2 (ja) * 1995-07-19 2005-03-09 ソニー株式会社 音声認識方法及び装置
US5852801A (en) * 1995-10-04 1998-12-22 Apple Computer, Inc. Method and apparatus for automatically invoking a new word module for unrecognized user input
JPH09134360A (ja) 1995-11-10 1997-05-20 Omron Corp 『語』の概念を定量化するための方法及び装置、並びに、それらを用いた方法及び装置
JPH1097276A (ja) * 1996-09-20 1998-04-14 Canon Inc 音声認識方法及び装置並びに記憶媒体
US5797123A (en) * 1996-10-01 1998-08-18 Lucent Technologies Inc. Method of key-phase detection and verification for flexible speech understanding
JP3402100B2 (ja) * 1996-12-27 2003-04-28 カシオ計算機株式会社 音声制御ホスト装置
US6480841B1 (en) * 1997-09-22 2002-11-12 Minolta Co., Ltd. Information processing apparatus capable of automatically setting degree of relevance between keywords, keyword attaching method and keyword auto-attaching apparatus
JPH11259482A (ja) 1998-03-12 1999-09-24 Kdd Corp 複合名詞の機械翻訳方式
US6219639B1 (en) * 1998-04-28 2001-04-17 International Business Machines Corporation Method and apparatus for recognizing identity of individuals employing synchronized biometrics
ATE235733T1 (de) * 1998-05-11 2003-04-15 Siemens Ag Anordnung und verfahren zur erkennung eines vorgegebenen wortschatzes in gesprochener sprache durch einen rechner
US6185530B1 (en) * 1998-08-14 2001-02-06 International Business Machines Corporation Apparatus and methods for identifying potential acoustic confusibility among words in a speech recognition system
JP3619380B2 (ja) * 1998-12-25 2005-02-09 富士通株式会社 車載入出力装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014029713A (ja) * 2007-12-31 2014-02-13 Mastercard International Inc データベース内に近似文字列照合を実装するための方法およびシステム

Also Published As

Publication number Publication date
US20050251385A1 (en) 2005-11-10
KR20010075669A (ko) 2001-08-09
AU6867500A (en) 2001-03-26
EP1146439A1 (en) 2001-10-17
WO2001016794A1 (fr) 2001-03-08
CN1158621C (zh) 2004-07-21
US7010477B1 (en) 2006-03-07
CN1327562A (zh) 2001-12-19
ID29197A (id) 2001-08-09
EP1146439A4 (en) 2002-02-27

Similar Documents

Publication Publication Date Title
Yoon et al. Multimodal speech emotion recognition using audio and text
CN112000818B (zh) 一种面向文本和图像的跨媒体检索方法及电子装置
JP3768205B2 (ja) 形態素解析装置、形態素解析方法及び形態素解析プログラム
JP7441864B2 (ja) 多音字の発音を予測する方法、装置、設備、および記憶媒体
Zhou et al. Inferring emotion from conversational voice data: A semi-supervised multi-path generative neural network approach
US20050251385A1 (en) Information processing apparatus, information processing method and recording medium
Korpusik et al. Spoken language understanding for a nutrition dialogue system
Cui et al. Multi-view and multi-objective semi-supervised learning for hmm-based automatic speech recognition
Zhao et al. Applications of deep learning to audio generation
Zhao et al. End-to-end-based Tibetan multitask speech recognition
Zhang Voice keyword retrieval method using attention mechanism and multimodal information fusion
Liu et al. A hybrid neural network BERT-cap based on pre-trained language model and capsule network for user intent classification
JP4820240B2 (ja) 単語分類装置及び音声認識装置及び単語分類プログラム
JP7169770B2 (ja) 人工知能プログラミングサーバおよびそのプログラム
JP5436307B2 (ja) 類似文書検索装置
Han et al. Lexicalized neural unsupervised dependency parsing
Shang Spoken Language Understanding for Abstractive Meeting Summarization
Daelemans Abstraction considered harmful: Lazy learning of language processing
JP2009003811A (ja) 属性判別装置、対話装置、及びプログラム
Verkholyak et al. Ensemble-Within-Ensemble Classification for Escalation Prediction from Speech.
Baranwal et al. Extracting primary objects and spatial relations from sentences
JP2006107353A (ja) 情報処理装置および方法、記録媒体、並びにプログラム
JP4674609B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
Vasuki Design of Hierarchical Classifier to Improve Speech Emotion Recognition.
Rashmi et al. Text-to-Speech translation using Support Vector Machine, an approach to find a potential path for human-computer speech synthesizer

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20061107