JP4821328B2 - 補完単語語句提案方法、プログラムおよび補完単語語句提案装置 - Google Patents

補完単語語句提案方法、プログラムおよび補完単語語句提案装置 Download PDF

Info

Publication number
JP4821328B2
JP4821328B2 JP2006004474A JP2006004474A JP4821328B2 JP 4821328 B2 JP4821328 B2 JP 4821328B2 JP 2006004474 A JP2006004474 A JP 2006004474A JP 2006004474 A JP2006004474 A JP 2006004474A JP 4821328 B2 JP4821328 B2 JP 4821328B2
Authority
JP
Japan
Prior art keywords
phrase
word
dictionary
user learning
complementary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006004474A
Other languages
English (en)
Other versions
JP2007188199A (ja
Inventor
卓也 深貝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2006004474A priority Critical patent/JP4821328B2/ja
Publication of JP2007188199A publication Critical patent/JP2007188199A/ja
Application granted granted Critical
Publication of JP4821328B2 publication Critical patent/JP4821328B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Description

本発明は、文字入力の支援技術に関するものであり、特に、予測変換技術を用いた文字入力の支援技術に関するものである。
IT技術の進歩により、個人が携帯する小さな端末装置でインターネット通信ができ、メールの授受などに利用されることが普通となってきた。このような携帯型の端末では、PDAや携帯電話のようにキーボードが小さかったりソフトキーボードであったりして、ユーザは文字入力に苦労する。
このような文字入力の支援技術として、下記特許文献1に見られるような予測変換技術が大いに有効である。この技術は辞書機能を提供する予測変換ソフトウェアが、予め端末に用意したユーザ学習辞書に基づいて、利用者のよみ文字列の1文字入力ごとに、利用者が入力したいであろう表示文字列の候補と表示優先順位を決定して表示するものである。ここにユーザ学習辞書とは、通常の単語語句辞書から利用者の使用履歴をもとに単語語句要素をピックアップした辞書である。その一例を図15に示す。図15(a)のユーザ学習辞書UGJはよみ文字列ymと表示文字列hmをペアにした単語語句要素tyからなり、ユーザが実際に使用した頻度順、時刻順などで、たとえば数百語程度とられている。これらは端末に備えられた通常の単語語句辞書Dictからピックアップされたもので、図15(b)のように単語語句辞書Dictは通常、ユーザ学習辞書UGJに比べはるかに大量の(たとえば数万語程度の)単語語句要素tyからなっている。また、通常、単語語句辞書Dict自身もユーザがよみ文字列ymと表示文字列hmを自己流に単語登録してカスタマイズできる。
2002年以降、利用者がこのようなユーザ学習辞書をカスタマイズできるようにするため、数社の携帯電話メーカが辞書データのダウンロードサービスを開始した。例えば、SONY社製の携帯電話で用いられている予測変換機構POBoxの利用者は、ダウンロードサイトに用意された方言・趣味・ビジネス用語など130種類以上のカテゴリの中から辞書データを選択し、利用することができる。また、利用者がWeb上で辞書データを作成し、それを携帯電話にダウンロードして利用するサービスも提供されている。
このような複数個の予測変換用辞書を端末内に装備して、限られた候補表示ウィンドウ内に、最もユーザの使用に便利なように候補を表示する技術も、たとえば特許文献2に示すように開示されている。また、本特許文献2では、ユーザ学習辞書UGJを単語語句辞書Dictからのピックアップコピーとせずに、単語語句辞書Dictの当該単語語句要素tyへのポインタ列とする技術も開示する。
しかしながら、これらのサービスはユーザ学習辞書UGJを補完する単語語句要素tyのソースとなる辞書を提供して辞書機能のカスタマイズを支援するサービスなので、利用者の判断でダウンロードする辞書データを決定しなければならない。そして、その選択したカテゴリ化された辞書からユーザが単語語句要素tyを選んで実際に使用することでユーザ学習辞書に取り込む(補完する)ことしかできず、結局、ユーザの辞書使用の範囲内でしか単語語句の補完ができない。したがって、ユーザが自分では思いつかないが、それを見せられれば本当は使いたいであろう単語語句要素tyが膨大な単語語句辞書Dictの中にあったとしても、これを選択して使用することには思いが及ばず、そのため有効にユーザ学習辞書には取り込まれることは少ないであろう、と考えられる。
特開平10−154144号公報 特開2004−21321号公報
上記のように、従来の予測変換に用いられるユーザ学習辞書をよりユーザに適切なものにするための支援方法では、カテゴリ化された辞書をユーザの選択に任せて提供し、その辞書からユーザが実際に使用することでユーザ学習辞書に取り込む(補完する)ことしかできず、結局、ユーザの辞書使用の範囲内でしか単語語句の補完ができない、という課題があった。
従来の予測変換に用いられるユーザ学習辞書をよりユーザに適切なものにカスタマイズするための支援方法では、ユーザの辞書使用の範囲内でしか単語語句の補完ができない、という前記課題は、図1及び図2に示す如く、ユーザが使用した単語または語句のよみ文字列と対応する該単語または語句の表示文字列との対を含む単語語句要素の集合であるユーザ学習辞書を内蔵する端末装置と、前記ユーザ学習辞書に対して、さらに適切な追加すべき新しい単語語句である補完単語語句を提案する少なくとも1つの補完単語語句提案装置とがネットワークを介して接続されたネットワークシステムの補完単語語句提案方法であって、前記補完単語語句提案装置の類似状況解析手段で、前記端末装置から送信され、かつユーザ学習辞書登録データベースに登録された全ての前記ユーザ学習辞書の中から選択した前記ユーザ学習辞書の全てに第1の単語語句要素が共通して含まれるように前記ユーザ学習辞書を選択し、前記選択されたユーザ学習辞書をグループ化して、辞書グループデータベースを生成または更新し、(図1のステップS106)と、前記補完単語語句提案装置の共有状況解析手段で、前記辞書グループデータベース内の第2の単語語句要素がいくつのユーザ学習辞書に共有されているかを表す共有度数を求めて、前記共有度数の大きさによって前記第2の単語語句要素を順序付けし、(図1のステップS107)と、前記補完単語語句提案装置の補完単語語句選択手段で、前記順序付けられた第2の単語語句要素の中から、順序付けに基づいて補完単語語句要素とすべき前記第2の単語語句要素を選択し、
(図1のステップS108)と、 前記補完単語語句提案装置の補完単語語句要素送信手段で、補完単語語句要素とすべき前記第2の単語語句要素を対象となる特定の前記端末装置の前記ユーザ学習辞書に提案する、ことを含む補完単語語句提案方法によって解決される。
すなわち、本発明の補完単語語句提案方法では、あるユーザ(ユーザ識別番号ui=x)は複数の他ユーザの中から自分と類似度の高いユーザ学習辞書UGJをもつ複数ユーザが共通して使用する単語語句要素tyでありながら当該ユーザ(ユーザ識別番号ui=x)はこれを自分のユーザ学習辞書UGJには含んでいないとき、本発明の補完単語語句提案ステップはこの単語語句要素tyを選択し、当該ユーザ(ユーザ識別番号ui=x)に補完単語語句要素として提案する。このようにして選択された補完単語語句要素は、当該ユーザが思いついていない単語語句要素であるが、見せられると使いたくなるであろう、と考えられる。または、当該ユーザがたまたま使っていなかったが、今後使う可能性が高い、と推定される。さらに、多数の単語語句要素tyを共通にもつユーザ学習辞書UGJ同士はお互いに類似度が高いと考えられ、これらをひとつの辞書グループに形成して着目する。そしてこのグループ内の単語語句要素tyの中でも共有度数が高い単語語句要素ty(たとえば、このグループ内のある特定メンバを除いて他のすべてのメンバが共通に持つ単語語句要素ty)はその特定メンバにとって補完すべき単語語句要素であるとして当該単語語句要素tyを補完単語語句要素htyとして提案するので、補完単語語句要素htyの決定が効果的に効率よく行われる。
すなわち、多数の単語語句要素tyを共通にもつユーザ学習辞書UGJ同士はお互いに類似度が高いと考えられ、これらをひとつの辞書グループに形成して着目する。そしてこのグループ内の単語語句要素tyの中でも共有度数が高い単語語句要素ty(たとえば、このグループ内のある特定メンバを除いて他のすべてのメンバが共通に持つ単語語句要素ty)はその特定メンバにとって補完すべき単語語句要素であるとして当該単語語句要素tyを補完単語語句要素htyとして提案するので、補完単語語句要素htyの決定が効果的に効率よく行われる。
また、前記課題は、さらに、図1のステップS111に示すごとく、すでに複数個のユーザ学習辞書によって辞書グループUGJgroupが形成されているとき、前記辞書グループUGJgroup内の全メンバのユーザ学習辞書に共通して含まれる共有単語語句要素の集合であるコア共有単語語句要素集合CKYLを用いて、前記複数個のユーザ学習辞書とは異なる新規ユーザ学習辞書(ユーザ学習辞書識別番号ji=T)に対する補完単語語句要素を求める新規辞書対応部ステップを備えることで、新規登録ユーザに迅速に補完単語語句要素htyの提案ができる。
すなわち、新規ユーザ学習辞書の場合は、既にあるグループに加入できるかどうかをコア共有単語語句要素集合CKYLを利用して判断し、加入できればそのグループでの補完単語語句要素hty選択ロジックに従えばよく、前記の類似状況解析ステップや共有状況解析ステップを経なくとも補完単語語句要素htyを決定できる。前記の類似状況解析ステップや共有状況解析ステップは相当の処理時間を要する重い処理なので、これを要しない本新規辞書対応部ステップを備えることで、短い処理時間でリアルタイムで当該の新規ユーザに補完単語語句要素htyを渡すことができる、という効果がある。また、既存グループに加入できない場合は通常のバッチ処理(図1のステップS106〜108)によって補完単語語句要素htyを決定すればよい。
また、前記課題は、図13に示すごとく、ユーザが作成した文章データを受信する文章データ受信ステップ(ステップS1302)と、前記受信された文章データを形態素解析して単語語句表示文字列に分解する形態素解析ステップ(ステップS1303)と、単語語句辞書データを逆参照して、前記単語語句表示文字列のよみ文字列を求めて、該ユーザに対応する単語語句要素集合を作成する単語語句要素集合作成ステップ(ステップS1304)とを有する補完単語語句提案方法によって、より広汎に本発明の補完単語語句提案システムを展開することができる。
すなわち、本発明の補完単語語句提案方法をもつ補完単語語句提案装置に対しては、ユーザは補完単語語句提案装置用端末装置として現在普及している携帯電話をなんら変更することなく用いることができ、多数ユーザがより容易に本補完単語語句提案システムに参加することができる、という利点がある。
本発明の補完単語語句提案方法によれば、ユーザは自分のユーザ学習辞書を補完単語語句提案サーバに送信するだけで、サーバから適切な補完単語語句を受け取ることができる、という効果がある。
本発明の補完単語語句提案方法の実施例を図1〜図15により説明する。なお、本発明におけるコンピュータ処理は、当該コンピュータの主記憶装置上に展開されたコンピュータプログラムにより実行されるが、このコンピュータプログラムの提供形態は、当該コンピュータに接続された補助記憶装置をはじめ、CD−ROM等の可搬型記憶装置やネットワーク接続された他のコンピュータの主記憶装置及び補助記憶装置等の各記録媒体に格納されて提供されるもので、このコンピュータプログラムの実行に際しては、当該コンピュータの主記憶装置上にローディングされ実行されるものである。
本発明の補完単語語句提案方法を組み込んだ補完単語語句提案システムの実施例について図1および図2によって説明する。図2は本発明の補完単語語句提案システムの構成図であって、多数ユーザの持つ補完単語語句提案装置用端末装置2がインターネットを介して補完単語語句提案装置1に接続されている。サーバである補完単語語句提案装置1は多数の補完単語語句提案装置用端末装置2から多数のユーザ学習辞書UGJを集めてユーザ学習辞書登録データベースUDBに格納しており、これをもとに、個々のユーザに適切な補完単語語句要素htyを送信する。
本実施例では補完単語語句提案装置用端末装置2はPDAや携帯電話などの携帯端末である。補完単語語句提案装置用端末装置2は携帯端末としての基本機能を携帯端末基本機能部21に持つほか、補完単語語句提案装置1に対して自らの内蔵するユーザ学習辞書UGJデータを送信するユーザ学習辞書出力手段22を持ち、また、補完単語語句提案装置1から補完単語語句要素htyを受け取る補完単語語句要素入力手段23を持つ。なお、本実施例では補完単語語句提案装置用端末装置2は補完単語語句提案装置1とネットワーク接続されているが、他の実施例では、ユーザ学習辞書出力手段22を媒体出力とし補完単語語句要素入力手段23を媒体入力とすることも容易に可能である。
補完単語語句提案装置1は補完単語語句提案装置用端末装置2からのユーザ学習辞書UGJを受信するユーザ学習辞書受信手段14を持つ。ユーザ学習辞書受信手段14には新規登録受信部141と登録更新受信部142とがあり、受信したユーザ学習辞書UGJが新規登録であれば新規登録受信部141が、また既登録のユーザ学習辞書UGJを更新するデータの受信であれば登録更新受信部142が起動される。
類似状況解析手段11はユーザ学習辞書UGJを蓄積するユーザ学習辞書登録データベースUDBの生成更新およびこれらユーザ学習辞書UGJをグループ化したグループの蓄積である辞書グループデータベースGDBの生成更新を行う。共有状況解析手段12はユーザ学習辞書登録データベースUDBおよび辞書グループデータベースGDBに基づいてユーザ学習辞書UGJ同士の単語語句要素tyの共有状況を解析する。そして、辞書グループデータベースGDBに登録されたグループ(グループ識別番号gi)ごとに、内蔵する単語語句要素tyの共有度数rを整理した共有度数データベースKDB(gi)を生成更新する。
補完単語語句選択手段13はこれら生成されたユーザ学習辞書登録データベースUDB、辞書グループデータベースGDB、共有度数データベースKDB(gi)に基づいて、個々のユーザ学習辞書UGJに対して提案する補完単語語句要素htyを選択する。補完単語語句選択手段13内にはバッチ処理部131と新規辞書対応部132とがあり、補完単語語句提案装置用端末装置2から受信したユーザ学習辞書UGJが既存のユーザ学習辞書登録データベースUDBに登録済みの場合(図1ではユーザ学習辞書識別番号ji=B)、バッチ処理部131が起動し、受信ユーザ学習辞書UGJが新規の場合(図1ではユーザ学習辞書識別番号ji=T)は新規辞書対応部132が起動する。バッチ処理部131が選択した補完単語語句要素htyは補完単語語句要素送信手段15のメール送信部152に渡され、新規辞書対応部132が選択した補完単語語句要素htyは補完単語語句要素送信手段15のリアルタイム送信部151に渡される。
本実施例では、補完単語語句提案装置用端末装置2からユーザ学習辞書UGJを補完単語語句提案装置1のウェブサイトにアップロードするが、受け取る補完単語語句要素htyは原則としてメール送信部152によって後日メールによって配信される。これは補完単語語句提案装置1内部で補完単語語句要素htyを決定するまでの類似状況解析手段11、共有状況解析手段12の処理時間が相当時間を要するため、夜間等のまたは別マシンによるバッチ処理としたためである。ただし、既にユーザ学習辞書登録データベースUDBが形成されているときに、新規ユーザからウェブサイトにユーザ学習辞書UGJの登録があった場合は、新規辞書対応部132、リアルタイム送信部151によって、該ウェブサイトでリアルタイムに補完単語語句要素htyをダウンロード可能とする。これらの仕組みについて、図1の動作フローを参照して説明する。
まず、ステップS101で補完単語語句提案装置用端末装置2からユーザ学習辞書UGJを補完単語語句提案装置1のユーザ学習辞書受信手段14に送信する。ユーザ学習辞書受信手段14はユーザ学習辞書登録データベースUDBを参照して、ステップS102で受信ユーザ学習辞書UGJは新規登録か、を判定する。ここでユーザ学習辞書登録データベースUDBのデータ構造例を図3によって説明する。ユーザ学習辞書登録データベースUDBのひとつのレコードはユーザ識別番号ui項目、メールアドレスadr項目、登録日時項目、最終更新日時項目、ユーザ学習辞書識別番号ji項目、ユーザ学習辞書UGJ項目からなる。
ユーザ識別番号ui項目とユーザ学習辞書識別番号ji項目は同じ数値で、類似状況解析手段11が新規ユーザ学習辞書UGJを受けるごと発行する。図3の例ではユーザ識別番号ui=1,2,…,UのU人のユーザからユーザ学習辞書識別番号ji=1,2,…,UのU個のユーザ学習辞書UGJが登録されている。登録日時項目、最終更新日時項目は類似状況解析手段11がユーザ学習辞書UGJを受けるごと発行する。メールアドレスadr項目、ユーザ学習辞書UGJ項目は補完単語語句提案装置1のウェブサイトにアクセスした補完単語語句提案装置用端末装置2が入力した値である。図3の具体例では簡単のために10から20語からなる5つのユーザ学習辞書UGJを示したが、実際の運用では数百語程度のユーザ学習辞書UGJが普通と思われ、例えばユーザ学習辞書UGJとして受け付ける最低受付語数閾値Wjを設けて、Wj語以上含まないユーザ学習辞書UGJは受け付けない、としてもよい。
ステップS102で受信ユーザ学習辞書UGJは新規登録でなかった場合、ステップS103で 登録更新受信部142は受信ユーザ学習辞書UGJを受信ユーザ学習辞書バッファ143に蓄積する。受信ユーザ学習辞書バッファ143はFIFO(ファーストインファーストアウト)モードのデータバッファで、このバッファに残件数があれば処理終了となり、次の受信を待つ。受信ユーザ学習辞書バッファ143が空のときにステップS103で最初の一件が投入された場合、および以下のバッチ処理で一件処理が終わるごとに図の<バッチ処理>(ステップS104〜109)が実行される。一方、ステップS102で受信ユーザ学習辞書UGJが新規登録であった場合はステップS110以降の<リアルタイム処理>を行う。
まずステップS104〜109のバッチ処理を説明する。ステップS104でユーザ学習辞書受信手段14は補完単語語句要素送信手段15からの取り出し指示(図2では破線で示す)を受け、受信ユーザ学習辞書バッファ143からFIFOモードでユーザ学習辞書UGJ(ユーザ学習辞書識別番号ji=B)を取り出し、類似状況解析手段11に渡す。
次にステップS105で補完単語語句提案装置1の類似状況解析手段11はユーザ学習辞書受信手段14からユーザ学習辞書UGJ(ji=B)を受信し、ユーザ学習辞書登録データベースUDBに新規登録または登録更新を行う。
次いで類似状況解析ステップS106で、類似状況解析手段11はユーザ学習辞書登録データベースUDBに登録された全ユーザ学習辞書の中から、その単語語句要素が全メンバのユーザ学習辞書に共通して含まれるようにユーザ学習辞書を選択してグループ化して辞書グループUGJgroupを生成または更新して辞書グループデータベースGDBを生成または更新する。この部分の動作については、図4,5,6を用いて後に詳しく説明する。ここではこの処理で生成更新された辞書グループデータベースGDBのデータ構造例を図7で説明する。
図3の例に示す5つのユーザ学習辞書UGJについて、その単語語句要素tyの共有状況は図7の具体例に示すように解析される。ここで、グループ成立条件を、「4語以上単語語句要素tyを共有するユーザ学習辞書UGJ同士を類似性が高いとして、ひとつのグループにする」とした場合、図のようにグループ識別番号gi=1,2,3の三つのグループが生成される。このように類似性が高いとしてグループを生成するための最低の共有要素語数を共有要素個数閾値Ctと呼ぶとすると、本例では共有要素個数閾値Ct=4でグループを生成したことになる。実際の運用では、ユーザ学習辞書UGJが100語以上あるのであれば、共有要素個数閾値Ct=10、すなわち、最低10語以上共有しなければ類似性が高いとはいえないであろう。このような共有要素個数閾値Ctの値の設定も運用を通じて最適化を図るべきである。
このように辞書グループデータベースGDBにはひとつのグループに対応してひとつのレコードが生成され、各レコードにはグループ識別番号gi項目値、メンバ辞書識別番号リストMJIL項目値、グループサイズgs(gi)項目値、コア共有単語語句要素集合CKYL項目値がとられる。ここにコア共有単語語句要素集合CKYLとはこの辞書グループUGJgroupを成立させる共有要素個数閾値Ct以上の数の単語語句要素tyの集合であって、各辞書グループUGJgroupはそのコア共有単語語句要素集合CKYLによって特徴付けられている、といえる。類似状況解析ステップS106はかかる辞書グループデータベースGDBを生成更新するものである。
次いで共有状況解析ステップS107で、共有状況解析手段12は辞書グループデータベースGDB内の全辞書グループについて、グループ内の個々のメンバであるユーザ学習辞書UGJが含むおのおのの単語語句要素tyについて、該単語語句要素がいくつのメンバのユーザ学習辞書に共有されているかを表す数値である共有度数rを求めて、該共有度数rの大きさによって該単語語句要素tyを順序付けて、各グループごとに共有度数データベースKDBを生成する。この部分の動作については、図8を用いて後に詳しく説明する。ここではこの処理で生成更新された共有度数データベースKDB(gi)のデータ構造例を図9で説明する。
図9のように共有度数データベースKDB(gi)は、辞書グループUGJgroup(グループ識別番号gi)のメンバのユーザ学習辞書UGJのすべてにわたって、その単語語句要素tyの共有度数rを調べて、共有度数rの値ごとに該当する単語語句要素tyをリストにした等共有度数要素リストERLを持つものである。共有度数rの最大値はグループサイズgs(gi)である。すなわち、当該辞書グループUGJgroupの全メンバのユーザ学習辞書UGJが共有する単語語句要素tyの共有度数rはそのグループサイズgs(gi)に等しい。図9には例として図7の具体例に示すグループ識別番号gi=1の辞書グループUGJgroupに対応する共有度数データベースKDB(1)のようすを掲げた。
図1に戻って、次いで補完単語語句提案ステップS108において、補完単語語句選択手段13は辞書グループデータベースGDBから先のユーザ学習辞書(ユーザ学習辞書識別番号ji=B)を含む辞書グループを選択し、その共有度数データベースKDB(gi)中の順序付けられた共有単語語句要素のリストERLの中から、順序付けに基づいて補完単語語句要素とすべき共有単語語句要素を選択して、先のユーザ学習辞書(ユーザ学習辞書識別番号ji=B)に提案する補完単語語句要素リストHTYLとして補完単語語句要素送信手段15のメール送信部152に渡す。この部分の処理の詳細は後に図10によって説明する。
次いで、ステップS109でメール送信部152は先のユーザ学習辞書UGJ(ユーザ学習辞書識別番号ji=B)のユーザの登録メールアドレスadrに、上記得られた補完単語語句要素リストHTYLを添付ファイルとするメールを送信する。そして、これで1件の処理が完結したので、ユーザ学習辞書受信手段14に受信ユーザ学習辞書バッファ143から次の1件のFIFO取出しを指示する。この指示によって、次の1件に対するステップS104〜109の処理が行われ、最終的に受信ユーザ学習辞書バッファ143が空になるとバッチ処理が終了する。
次に、ステップS102で受信ユーザ学習辞書UGJが新規登録であった場合のステップS110以降の<リアルタイム処理>について説明する。まず、ステップS110でユーザ学習辞書受信手段14の新規登録受信部141は受信した新規ユーザ学習辞書UGJ(ユーザ学習辞書識別番号ji=T)を補完単語語句選択手段13の新規辞書対応部132に渡す。
次に新規辞書対応ステップS111で、補完単語語句選択手段13の新規辞書対応部132は、辞書グループデータベースGDBの全グループをそのグループサイズに従い降順ソートし、各グループのコア共有単語語句要素集合CKYLについて対象ユーザ学習辞書UGJに含まれるかを検査し、含まれるグループのみをリストアップしてリストSGLに入れる。そしてSGLのトップ要素の要素辞書グループUGJgroupから順に、すでに形成されている共有度数データベースKDB(gi)の等共有度数要素リストERLの単語語句要素tyが対象辞書UGJ(識別番号tji=T)に含まれないかを調べる。この部分の処理の詳細は後に図11によって説明する。
次にステップS112で新規辞書対応部132は前記該当する単語語句要素tyを集め、対象のユーザ学習辞書(ユーザ学習辞書識別番号ji=T)に提案する補完単語語句要素リストHTYLとして補完単語語句要素送信手段15のリアルタイム送信部151に渡す。以上のように新規辞書対応ステップは処理が軽いので短いターンアラウンドで補完単語語句要素リストHTYLを作ることができる。これを受けて、ステップS113で、補完単語語句要素送信手段15のリアルタイム送信部151は、このユーザ学習辞書UGJ(ユーザ学習辞書識別番号ji=T)に対する補完単語語句要素リストHTYLをこの辞書のユーザ(ui=T)がアクセスし、この辞書をアップロードしたウェブサイト上でこのユーザの補完単語語句提案装置用端末装置2にダウンロードさせる。よってユーザは自分がユーザ学習辞書UGJを登録送信したウェブサイトで直接補完単語語句の返信を受けられる。
この後、ステップS114で、リアルタイム送信部151は新規登録受信部141にこの新規登録ユーザ学習辞書UGJ(ji=T)を受信ユーザ学習辞書バッファ143に渡すべく指示する。これは図2上で破線矢印で示されている。これを受けて、ステップS115で、新規登録受信部141は新規登録ユーザ学習辞書UGJ(ji=T)を受信ユーザ学習辞書バッファ143にプッシュする。すなわち、この新規登録ユーザ学習辞書UGJはバッチ処理にまわされ、やがてステップS104でポップされた時点でユーザ学習辞書登録データベースUDBや辞書グループデータベースGDBや共有度数データベースKDB(gi)に反映されることとなる。
以上で本実施例の補完単語語句提案システムの全体的な動作の流れを述べた。以下には類似状況解析ステップ、共有状況解析ステップ、補完単語語句提案ステップの詳細について説明する。以下の説明に用いるフローでは種々の関数を用いている。図12にこれら使用関数の関数名とその定義を掲げている。
図4(a)には本実施例の類似状況解析ステップの全体構成を示す。すなわち、ステップS401で取り出しユーザ学習辞書UGJは新規ユーザのものかを調べ、新規でない場合、ステップS402の「(b)既存ユーザ学習辞書UGJ更新による既存辞書グループデータベースGDBの更新」ルーチンに任せる。新規ユーザ学習辞書UGJの場合、ステップS403ですでに作成済みの辞書グループデータベースGDBはあるかを調べ、noすなわち辞書グループデータベースGDBが作られる以前である場合はステップS404の「(c)辞書グループデータベースGDBの新規作成」ルーチンへ、yesすなわち既存辞書グループデータベースGDBがある場合はステップS405で「(d)新規ユーザ学習辞書UGJ追加による既存辞書グループデータベースGDBの更新」ルーチンへ任せる。
図4(b)は「(b)既存ユーザ学習辞書UGJ更新による既存辞書グループデータベースGDBの更新」ルーチンである。このルーチンではまずステップS411で「(b-1)メンバ削除処理」を行い、いったん更新対象のユーザ学習辞書UGJを辞書グループデータベースGDBから引き抜く。そして、ステップS412で、更新内容は「辞書削除」かを調べ、「辞書削除」であればまさにステップS411でやり終えている。更新内容が「辞書削除」でなくユーザ学習辞書UGJの中身変更であった場合は、先のステップS411で削除済みの辞書グループデータベースGDBに対して、ステップS413で、「(d)新規辞書追加処理」ルーチンを走らせ、結果として辞書グループデータベースGDBの更新を得ることとなる。
「(b-1)メンバ削除処理」ルーチンは個々の辞書グループUGJgroupに対し、当該ユーザ学習辞書UGJをメンバとする場合、メンバ辞書識別番号リストMJILからの削除、グループサイズgs(gi)の1減少を行いグループサイズgs(gi)が1に転じた場合、当該辞書グループUGJgroupを削除し、グループ識別番号giの振りなおしを行う。
その処理内容は、ステップS421から423で全giに対するスキャン体制をつくり、以下に述べるステップS425-428処理のスキャンをする。まず、ステップS425でユーザ学習辞書識別番号ji=Jのユーザ学習辞書UGJがグループ識別番号giの辞書グループUGJgroupのメンバであるかを調べ、noの場合はステップS422にかえり次のスキャンとなり、yesの場合はステップS426でこのメンバを削除する。すなわち、辞書グループデータベースGDB上でグループ識別番号giのレコードのメンバ辞書識別番号リストMJILおよびグループサイズgs(gi)の変更を行う。
次いでステップS427でグループサイズgs(gi)が1かを調べる。すなわち、メンバ削除の結果グループサイズgs(gi)が1となれば、もはやグループではなくなるので、ステップ S428で辞書グループデータベースGDB上でグループ識別番号giのレコードに削除フラグをたててステップS422にかえり次のスキャンをする。gs(gi)が1でない場合はそのままでステップS422にかえり次のスキャンをする。最後に全スキャン終了後ステップS424で辞書グループデータベースGDBにおいて削除フラグのある辞書グループUGJgroupを削除し、グループ識別番号giを振りなおす。以上でメンバ削除処理が終了する。
次に、図5によって「(c)辞書グループデータベースGDBの新規作成ルーチン」および「(d)新規ユーザ学習辞書UGJ追加による既存辞書グループデータベースGDBの更新ルーチン」について説明する。
(c)辞書グループデータベースGDBの新規作成ルーチンでは、ユーザ学習辞書登録データベースUDBにはU個のユーザ学習辞書UGJ(ユーザ学習辞書識別番号ji =1,2,…,U)があるが,どの2つのユーザ学習辞書UGJも共有単語語句要素ktyを持たず、辞書グループデータベースGDBは生成されていないところへ、ユーザ学習辞書識別番号ji=U+1のユーザ学習辞書UGJを投入してグループの成立有無を調べる。ステップS501からS503はユーザ学習辞書識別番号変数jiをji =1,2,…,Uと変化させスキャンする。ステップS504は ユーザ学習辞書識別番号jiのユーザ学習辞書UGJと新規のユーザ識別番号U+1のユーザ学習辞書UGJの積集合(共有要素集合)を変数KYLにバインドする。ステップS505はこの共有要素集合KYLの要素数がcth=コア共有要素数閾値Ctに達しないかの判定であり、達しない場合にはグループを生成できず次のjiに移るが、達した場合はステップS506で新たなペアグループを生成する。このグループはグループ識別番号gi=現在最終値+1であり、メンバ辞書識別番号リストMJILはjiとU+1の2要素メンバのみであり、コア共有単語語句要素集合CKYLはKYLに等しい。
(d)新規ユーザ学習辞書UGJ追加による既存辞書グループデータベースGDBの更新ルーチンでは、既存ji=1,2,...,UのU個のレコードを持つユーザ学習辞書登録データベースUDBと既存gi=1,2,...,GのG個のレコードを持つ辞書グループデータベースGDBに対して、新規ユーザ学習辞書UGJ(ji=U+1)を追加した場合の既存グループへの影響を調べる。これはさらに「(d-1)グループ加入(単純/ランク変更)処理」と「(d-2)グループ新設処理」とに分かれ、図6にその詳細フローを示す。
(d-1)グループ加入(単純/ランク変更)処理では、新規ユーザ学習辞書UGJ(ji=U+1)が既存のグループ識別番号giのコア共有単語語句要素集合CKYL(gi=1,2,…,G)を全包含すれば即当該グループ識別番号giの辞書グループUGJgroupに単純に加入する、また部分包含でもコア共有要素数閾値Ct以上の包含ならば当該辞書グループUGJgroupのコア共有単語語句要素集合CKYLの語数を下げて(ランク変更して)加入する。すなわち、ステップ601から603のスキャン体制のもとで、ステップS604でグループ識別番号giのコア共有単語語句要素集合CKYLがユーザ学習辞書識別番号U+1のユーザ学習辞書UGJに含まれるかを判定し、含まれるならばステップS606で辞書グループデータベースGDBのグループ識別番号giのレコードのメンバ辞書識別番号リストMJILにU+1を追加した更新(単純加入)を行う。次いでステップS608で、グループ識別番号giのコア共有単語語句要素集合CKYLとユーザ学習辞書識別番号U+1のユーザ学習辞書UGJの共有部分の語数が共有要素個数閾値Ct未満かの判定を行い、共有要素個数閾値Ct以上であれば、ステップS610で、グループ識別番号giのレコードのメンバ辞書識別番号リストMJILへの単純加入に加えて、コア共有単語語句要素集合CKYLを前記共有部分KYLに書き換えた更新(ランク変更)を行う。
(d-2)グループ新設処理は、先に説明した(c)の「辞書グループデータベースGDBの新規作成」処理に似るが、共有部分がコア共有要素数閾値Ct以上でも、既存グループのコア共有単語語句要素集合CKYLと等しいならば当該グループへの加入済みなので新設しない。すなわち、ステップS615で共有部分がコア共有要素数閾値Ct以上と判定されると、ステップS616から619で当該共有部分を既存のgi=1,2,…,Gすべてのコア共有単語語句要素集合CKYLと比較して、いずれとも等しくないときに初めてステップS620で新規グループと認定して辞書グループデータベースGDBに新規レコードを追加している。
次に共有状況解析ステップの動作フローについて図8によって詳細に説明する。共有状況解析ステップは、辞書グループデータベースGDBのグループ識別番号giの辞書グループUGJ-groupから共有度数データベースKDB(gi)を作成するステップである。ここに共有度数データベースKDB(gi)とは図9に示すデータ構造であり、グループ識別番号giの辞書グループUGJgroupに属する全ユーザ学習辞書UGJの全単語語句要素tyについてその共有度数rを調べたものである。すなわち、共有度数rの値ごとに等共有度数要素を集めた等共有度数要素リストERLを作ってひとつのレコードとしたレコードからなるデータベースである。
図8(a)は共有状況解析ステップの全体の流れである。グループ識別番号giの辞書グループUGJgroupの最大共有度数はグループサイズgs(gi)に等しいので、共有度数rは最小値2から最大値gs(gi)にわたり、ステップS801から804は最大共有度数gs(gi)の共有度数データベースKDB(gi)の入れ物を作る。その後、ステップS805で「(b)スキャンMJILルーチン」をコールする。
図8(b)はスキャンMJILルーチンであって、辞書グループデータベースGDBからグループ識別番号giの辞書グループUGJgroupのメンバ辞書識別番号リストMJILの全メンバ(i=1,2,…, gs(gi))をスキャンしてメンバMJIL(gi,i)のユーザ学習辞書UGJの単語語句要素tyの共有度数を調べて入れ物に入れる。ステップS811から814は常套のスキャンループであり、ステップS816,817で単語語句要素集合変数TSにユーザ学習辞書識別番号jのユーザ学習辞書UGJを次々に寄せ集める。かくしてステップS817に進むときには、単語語句要素集合変数TSにはメンバ辞書識別番号リストMJILの全メンバの全単語語句要素tyが集められている。
次いでステップS817でこのTSから等共有度数要素リストERLの集合である共有度数データベースKDB(gi)を作成する。これはTSを単語語句要素tyのリストとみなし、ステップS822から824でその先頭要素の共有度数rを調べ入れ物構造ERL(r)に蓄積する。ステップS825で残り要素集合をTSにバインドし、再びステップS822から824のループに入り、ステップS821で全単語語句要素tyが検査終了となるまで続けると、終了時に共有度数データベースKDB(gi)が出来上がったことになる。
次に図10,11によって、第1実施例の補完単語語句提案ステップの動作を説明する。図10は図1のステップS108(バッチ処理部の補完単語語句提案ステップ)の具体化であり、図11は図1のステップS111(リアルタイム処理部の補完単語語句提案ステップ)の具体化である。両ステップとも補完単語語句要素リストHTYLを生成するのに、「参照する辞書グループUGJgroupを順序づけたリストSGL」を用いるが、このSGLの求め方に差があるだけで、与えられた順序つきリストSGLから補完単語語句要素リストHTYLを生成するルーチン「(b)SGLから補完単語語句要素リストHTYLを生成するルーチン」は共通である。そこでまず、図10(b)によって「(b)SGLから補完単語語句要素リストHTYLを生成するルーチン」を説明する。
(b)SGLから補完単語語句要素リストHTYLを生成するルーチンは、共有度数rの最大から順にSGL内の各グループの等共有度数要素リストERLの単語語句要素tyをユーザ学習辞書UGJと比べて含まれないものを順次補完単語語句要素htyとしてリストHTYLに入れ、提案語数閾値Wtに達すると終了するルーチンである。すなわち、ステップS1021から1023で共有度数rの最大値から最小値2までをスキャンし、ステップ1024で当該共有度数rの等共有度数要素リストERLから補完単語語句要素htyを抽出して変数htyrlにバインドするサブルーチン「(b-1)候補hty選択リスト生成ルーチン」をコールする。そしてステップS1026でhtyrlから1語ずつ取り出して、ステップS1027で補完単語語句要素リストHTYLを該1語ずつ成長させ、ステップS1028で提案語数閾値Wtに達すしたことを判定して終了する。
サブルーチン(b-1)候補hty選択リスト生成ルーチンは、与えられた「参照する辞書グループUGJgroupを順序づけたリストSGL」のメンバグループを先頭から順に取り出し(ステップS1032,1033)、該グループの等共有度数要素リストERLを取り出し(ステップS1036)、その先頭単語語句要素tyから順に取り出して(ステップS1038)、それが対象のユーザ学習辞書UGJに含まれないことを判定して(ステップS1039)、htyrlの最後に付け足す(ステップS1040)。これをERLの全単語語句要素tyで終了すると(ステップS1037yes)、SGLの次のグループを取り出し(ステップS1033)、全グループが終了する(ステップS1032yes)と終了となる。
以上の「(b)SGLから補完単語語句要素リストHTYLを生成するルーチン」を用意しておいて、次に、そこに渡す「参照する辞書グループUGJgroupを順序づけたリストSGL」の作り方を、バッチ処理部の場合の図10(a)で説明する。まず、辞書グループデータベースGDBのレコードのグループサイズgsアイテムをキーとして降順にソートし、ソート順アイテムreciを追加したソート済みデータベースを構造体SGDBにバインドする(ステップS1003)。ソート順アイテムreci を1から順に(すなわちメンバ数の大きなグループから順に)そのグループのグループ識別番号giを変数wkgiに取り出す(ステップS1007)ことを繰り返す(ステップS1004から1006)。グループ識別番号wkgiで取り出された辞書グループUGJgroupに対象ユーザ学習辞書UGJが含まれるかを判定し(ステップS1008)、これを含む辞書グループUGJ-groupのみを抽出してSGLに入れる(ステップS1011)。全辞書グループUGJgroupをスキャンし終わると(ステップS1006yes)、maxrank値をSGLのトップ要素のランクで決定する(ステップS1010)。
以上のバッチ処理部におけるSGLの決定方法に対して、新規辞書対応ステップにおけるSGL決定方法は図11(a)に示される。これを図10(a)のバッチ処理部に比べると、ステップS1008がステップS1108,1109に置き換わっているのみである。すなわち、対象ユーザ学習辞書UGJが新規登録の場合は、グループ識別番号wkgiで取り出された辞書グループUGJgroupのコア共有単語語句要素集合CKYLが対象ユーザ学習辞書UGJに含まれているかを判定し(ステップS1108,1109)、含まれる場合のみ該辞書グループUGJgroupのグループ識別番号giをSGLに取り込む(ステップS1110)。
ちなみに、図3に示す具体例の5つのユーザ学習辞書UGJに対して、本実施例で共有要素個数閾値Ct=4、提案語数閾値Wt=4と設定して求めた各ユーザへ返信する補完単語語句要素リスHTYLは次のようになる。
対ユーザ1:
補完単語語句要素リスHTYL= {泡盛,ゴーヤ }
対ユーザ2:
補完単語語句要素リスHTYL= { ワイン,チーズ }
対ユーザ3:
補完単語語句要素リスHTYL= {居酒屋,バー,MP3,iPod }
対ユーザ4:
補完単語語句要素リスHTYL= { GUI,Windows(登録商標)}
対ユーザ5:
補完単語語句要素リスHTYL= {ICカード,組み込み,ISO7816,GSM }
以上、本実施例ではユーザ学習辞書UGJ同士の類似性について一定の共有要素個数閾値Ctを越える語数の単語語句要素tyを共有することを条件とした。すなわち、このような条件を満たすユーザ学習辞書UGJ同士を類似性ありとして同一グループとする。一方、他の実施例では比較対照のもととなる単語語句の語数をユーザ学習辞書UGJ同士でそろえておいてその範囲で比較する実施方法も考えられる。例えば各ユーザ学習辞書UGJの上位100語同士を比較して10語以上共有すれば同一グループとする、といった方法である。ユーザごとにユーザ学習辞書UGJのサイズはかなり違っていることも予想され、比較語数や共有要素個数閾値は運用の過程で調整していく必要があるであろう。
また、本実施例では補完単語語句要素リスHTYLを作るのに提案語数閾値Wtを導入した。これはいたずらに多くの補完単語語句要素htyを返すことで却ってユーザ学習辞書UGJに不要単語語句を与える弊害を考慮したものである。以上の共有要素個数閾値Ctおよび提案語数閾値Wtは補完単語語句提案装置1において外部より設定可能としているが、ユーザが本ウェブサイトにアクセスして依頼する画面で、ユーザによってこれら共有要素個数閾値Ctや提案語数閾値Wtを設定可能とする運用も考えられる。
本実施例の補完単語語句提案方法は図14の補完単語語句提案システムに用いられるものである。これを図2の実施例1と比較すると、(1)補完単語語句提案装置用端末装置2´はユーザ学習辞書出力手段22や補完単語語句要素入力手段23を特別に装備していない、(2)補完単語語句提案装置1´は文章データ受信手段16、形態素解析手段17を有する、という構成上の差がある。
図13は本実施例の補完単語語句提案システムの動作フローを示す。まずステップS1301で補完単語語句提案装置用端末装置2から文章データsentを補完単語語句提案装置1の文章データ受信手段16に送信する。これは例えばユーザが補完単語語句提案装置用端末装置2を用いて作成したメール発信文書であってもよい。このような場合、ユーザは本来の発信相手のほかに同報発信先として補完単語語句提案装置1´のメールアドレスを指定しておけばよい。
次に、ステップS1302で補完単語語句提案装置1´の文章データ受信手段16は受信した文章データsentを形態素解析手段17に送る。上記のようにメールとして文章データ受信手段16が受け取る場合は、例えば受信文章文字列の上限文字数を決めておいて、該上限に達するまで受信を蓄積し、上限に達した時点で該文章文字列を形態素解析手段17に送る、といった運用を行う。
ステップS1303で形態素解析手段17は内蔵する単語語句辞書Dictの表示文字列hmをキーとする逆引きを行い、前記受信された文章データsentを形態素解析して単語語句表示文字列に分解する。そして、ステップS1304で形態素解析手段17は単語語句辞書Dictによって前記単語語句表示文字列hmのよみ文字列ymを求めて、該ユーザに対応する単語語句要素tyの集合を生成し、これを推定ユーザ学習辞書sUGJとしてユーザ学習辞書受信手段14に渡す。このとき形態素解析手段17は該単語語句要素tyに文章データsent中の出現頻度や時刻に応じた優先順位をつけて推定ユーザ学習辞書sUGJを形成する。
ユーザ学習辞書受信手段14はこのように得られた推定ユーザ学習辞書sUGJを受信するが、これ以降は第1実施例のステップS102以下に接続する。すなわち、類似状況解析ステップ、共有状況解析ステップ、補完単語語句提案ステップを経て補完単語語句要素htyが抽出され当該ユーザにメールによって返信される。この場合には新規登録であってもウェブアクセスによるものではないので、図1のステップS110から115にいたるリアルタイム処理は省略可能であり、常にメールによる補完単語語句要素hty返信であるとすることも妥当である。
本実施例の補完単語語句提案装置1´は形態素解析手段17などの処理負担が増すが、補完単語語句提案装置用端末装置2´が現行の流布されている携帯電話などの基本機能になんら追加の機能を要求しないため、多数のユーザをシステムに組み込むことがより容易になる、という利点がある。
以上の実施例を通じて、ユーザ学習辞書UGJのよみ文字列ymは図15に示すようなひらがな文字列であり、単語語句辞書Dictについても同様であるとした。しかしながら、予測変換技術は本来キー打鍵回数を最小に抑えることで文字入力を快適にする技術であり、よみ文字列ymはキー打鍵文字列に直結する。それゆえ、補完単語語句提案装置用端末装置2がひらがな入力モードである場合によみ文字列ymがひらがな文字列であるべきであって、ローマ字入力モードやT9入力モードの場合は、よみ文字列ymもこれに対応すべきであり、単語語句辞書Dictもまた対応したものが必要である。したがって、本発明は補完単語語句提案装置用端末装置2のよみ文字列ym入力モードを等しくするユーザ同士でひとつの世界を形成すべきである。よって、補完単語語句提案装置1はよみ文字列ym入力モードごとに別個のアクセスサイトを作り、独立にユーザ学習辞書登録データベースUDB、辞書グループデータベースGDBをつくり、対応する補完単語語句提案装置用端末装置2からのアクセスが混同しないように注意する必要がある。
以上の実施形態に関し、更に以下の付記を開示する。
(付記1)ユーザが使用した単語または語句のよみ文字列と対応する該単語または語句の表示文字列との対を含む単語語句要素の集合であるユーザ学習辞書に対して、さらに適切な追加すべき新しい単語語句である補完単語語句を提案する補完単語語句提案方法であって、
複数の異なるユーザから提供された前記ユーザ学習辞書間の類似状況を解析する類似状況解析ステップと、
前記ユーザ学習辞書の構成要素である個々の単語語句要素が複数のユーザ学習辞書に共有されている共有状況を解析する共有状況解析ステップと、
補完単語語句を提案すべき対象となる特定のユーザ学習辞書に対して、前記類似状況および前記共有状況に基づいて前記補完単語語句とすべき共有単語語句要素を選択する補完単語語句選択ステップと、
を有することを特徴とする補完単語語句提案方法。
(付記2)前記類似状況解析ステップは、
複数の異なるユーザ学習辞書の中から、前記単語語句要素が全メンバのユーザ学習辞書に共通して含まれるようにユーザ学習辞書を選択してグループ化した辞書グループを生成し、
前記共有状況解析ステップは、
前記類似状況解析ステップで生成された辞書グループ内の個々のメンバであるユーザ学習辞書が含むおのおのの単語語句要素について、該単語語句要素がいくつのメンバのユーザ学習辞書に共有されているかを表す数値である共有度数を求めて、該共有度数の大きさによって該単語語句要素を順序付け、
前記補完単語語句提案ステップは、
前記補完単語語句を提案すべき対象となる特定のユーザ学習辞書をメンバとして含む前記辞書グループ内の前記共有度数の大きさによって順序付けられた共有単語語句要素の中から、前記順序付けに基づいて前記補完単語語句要素とすべき共有単語語句要素を選択して、該特定のユーザ学習辞書に提案する前記補完単語語句とする、
ことを特徴とする付記1記載の補完単語語句提案方法。
(付記3)前記補完単語語句選択ステップは、さらに、
すでに複数個のユーザ学習辞書によって辞書グループが形成されているとき、前記辞書グループ内の全メンバのユーザ学習辞書に共通して含まれる共有単語語句要素の集合であるコア共有単語語句要素集合を用いて、前記複数個のユーザ学習辞書とは異なる新規ユーザ学習辞書に対する補完単語語句要素を求めることを特徴とする付記1ないし2記載の補完単語語句提案方法。
(付記4)前記補完単語語句選択ステップにおいて、
補完単語語句要素を提案すべき対象となる特定のユーザ学習辞書をメンバとする辞書グループ内の共有単語語句要素をその共有度数の降順で順序付け、該順位順に取り出された単語語句要素が前記特定のユーザ学習辞書に含まれない場合に該単語語句要素を選択し、選択語数が所定の提案語数閾値に達するまでに選択された単語語句要素を、前記特定のユーザ学習辞書に対応する補完単語語句要素とする、
ことを特徴とする付記1ないし3記載の補完単語語句提案方法。
(付記5)前記類似状況解析ステップにおいて、
所定の共有要素個数閾値以上の個数の単語語句要素が全メンバのユーザ学習辞書に共通して含まれるようにユーザ学習辞書を選択してグループ化した辞書グループを生成する、
ことを特徴とする付記1ないし4記載の補完単語語句提案方法。
(付記6)前記補完単語語句選択ステップにおいて、
補完単語語句要素を提案すべき対象となる特定のユーザ学習辞書をメンバとする複数の辞書グループ内の全共有単語語句要素の共有度数および当該グループのメンバのユーザ学習辞書の個数であるグループサイズを求め、第1キーを前記共有度数とし第2キーを前記グループサイズとして全共有単語語句要素を第1キーの降順および第2キーの降順で順序付け、該順位順に取り出された単語語句要素が前記特定のユーザ学習辞書に含まれない場合に該単語語句要素を選択し、選択語数が所定の提案語数閾値に達するまでに選択された単語語句要素を、前記特定のユーザ学習辞書に対応する補完単語語句要素とする、
ことを特徴とする付記1ないし5記載の補完単語語句提案方法。
(付記7)さらに、ユーザが作成した文章データを受信する文章データ受信ステップと、
前記受信された文章データを形態素解析して単語語句表示文字列に分解する形態素解析ステップと、
単語語句辞書データを逆参照して、前記単語語句表示文字列のよみ文字列を求めて、該ユーザに対応する単語語句要素集合を作成する単語語句要素集合作成ステップと
を有することを特徴とする付記1ないし6記載の補完単語語句提案方法。
(付記8)ユーザが使用した単語または語句のよみ文字列と対応する該単語または語句の表示文字列との対を含む単語語句要素の集合であるユーザ学習辞書に対して、さらに適切な追加すべき新しい単語語句である補完単語語句を提案する補完単語語句提案情報処理をコンピュータに実行させる補完単語語句提案情報処理プログラムであって、
複数の異なるユーザから提供された前記ユーザ学習辞書間の類似状況を解析する類似状況解析ステップと、
前記ユーザ学習辞書の構成要素である個々の単語語句要素が複数のユーザ学習辞書に共有されている共有状況を解析する共有状況解析ステップと、
補完単語語句を提案すべき対象となる特定のユーザ学習辞書に対して、前記類似状況および前記共有状況に基づいて前記補完単語語句とすべき共有単語語句要素を選択する補完単語語句選択ステップと、
をコンピュータに実行させることを特徴とする補完単語語句提案情報処理プログラム。
(付記9)ユーザが使用した単語または語句のよみ文字列と対応する該単語または語句の表示文字列との対を含む単語語句要素の集合であるユーザ学習辞書に対して、さらに適切な追加すべき新しい単語語句である補完単語語句を提案する補完単語語句提案装置であって、
複数の異なるユーザから提供された前記ユーザ学習辞書間の類似状況を解析する類似状況解析手段と、
前記ユーザ学習辞書の構成要素である個々の単語語句要素が複数のユーザ学習辞書に共有されている共有状況を解析する共有状況解析手段と、
補完単語語句を提案すべき対象となる特定のユーザ学習辞書に対して、前記類似状況および前記共有状況に基づいて前記補完単語語句とすべき共有単語語句要素を選択する補完単語語句選択手段と、
を有することを特徴とする補完単語語句提案装置。
(付記10)ユーザが使用した単語または語句のよみ文字列と対応する該単語または語句の表示文字列との対を含む単語語句要素の集合であるユーザ学習辞書に対して、さらに適切な追加すべき新しい単語語句である補完単語語句を提案する補完単語語句提案情報処理をコンピュータに実行させる補完単語語句提案情報処理プログラムを記録したコンピュータ読み取り可能な記録媒体であって、
複数の異なるユーザから提供された前記ユーザ学習辞書間の類似状況を解析する類似状況解析ステップと、
前記ユーザ学習辞書の構成要素である個々の単語語句要素が複数のユーザ学習辞書に共有されている共有状況を解析する共有状況解析ステップと、
補完単語語句を提案すべき対象となる特定のユーザ学習辞書に対して、前記類似状況および前記共有状況に基づいて前記補完単語語句とすべき共有単語語句要素を選択する補完単語語句選択ステップと、
をコンピュータに実行させることを特徴とする補完単語語句提案情報処理プログラムを記録したコンピュータ読み取り可能な記録媒体。
(付記11)ユーザが使用した単語または語句のよみ文字列と対応する該単語または語句の表示文字列との対を含む単語語句要素の集合であるユーザ学習辞書に対して、さらに適切な追加すべき新しい単語語句である補完単語語句を提案する補完単語語句提案システムであって、
前記ユーザ学習辞書を出力する複数の補完単語語句提案装置用端末装置と、
前記補完単語語句提案装置用端末装置から出力されるユーザ学習辞書を収集し、該ユーザ学習辞書に対応する補完単語語句を提案する補完単語語句提案装置とから成り、
前記補完単語語句提案装置用端末装置は、
自らのもつユーザ学習辞書を装置外部に出力するユーザ学習辞書出力手段と、
前記補完単語語句提案装置から提案される補完単語語句要素を自らの装置内部に取り込む補完単語語句要素入力手段と、
を備えることを特徴とし、
前記補完単語語句提案装置は、
複数の異なるユーザから提供された前記ユーザ学習辞書間の類似状況を解析する類似状況解析手段と、
前記ユーザ学習辞書の構成要素である個々の単語語句要素が複数のユーザ学習辞書に共有されている共有状況を解析する共有状況解析手段と、
補完単語語句を提案すべき対象となる特定のユーザ学習辞書に対して、前記類似状況および前記共有状況に基づいて前記補完単語語句とすべき共有単語語句要素を選択する補完単語語句選択手段と、
を有することを特徴とする補完単語語句提案システム。
(付記12)補完単語語句提案システムに用いられる補完単語語句提案装置用端末装置であって、
自らのもつユーザ学習辞書を装置外部に出力するユーザ学習辞書出力手段と、
外部の補完単語語句提案装置から提案される補完単語語句要素を自らの装置内部に取り込む補完単語語句要素入力手段と、
を有することを特徴とする補完単語語句提案装置用端末装置。
本発明の補完単語語句提案方法は、これを提供するサーバを運用するアプリケーションサービスプロバイダビジネスとして利用される可能性がある。また、本発明の補完単語語句提案装置用端末装置は携帯電話などの携帯端末に差別化仕様を持たせることができ、携帯電話ビジネスなどのITビジネスにおいて利用される可能性がある。
本発明の第1実施例の補完単語語句提案システムの動作フロー図 本発明の第1実施例の補完単語語句提案システムの構成ブロック図 ユーザ学習辞書登録データベースUDBのデータ構造例 第1実施例の類似状況解析ステップの動作フロー図(その1) 第1実施例の類似状況解析ステップの動作フロー図(その2) 第1実施例の類似状況解析ステップの動作フロー図(その3) 辞書グループデータベースGDBのデータ構造例 第1実施例の共有状況解析ステップの動作フロー図 共有度数データベースKDB(gi)のデータ構造例 第1実施例の補完単語語句提案ステップの動作フロー図(その1) 第1実施例の補完単語語句提案ステップの動作フロー図(その2) 使用関数一覧表 本発明の第2実施例の補完単語語句提案システムの動作フロー図 本発明の第2実施例の補完単語語句提案システムの構成ブロック図 ユーザ学習辞書UGJ、単語語句辞書Dictのデータ構造例
符号の説明
1 補完単語語句提案装置
2 補完単語語句提案装置用端末装置
11 類似状況解析手段
12 共有状況解析手段
13 補完単語語句選択手段
14 ユーザ学習辞書受信手段
15 補完単語語句要素送信手段
16 文章データ受信手段
17 形態素解析手段
21 携帯端末基本機能部
22 ユーザ学習辞書出力手段
23 補完単語語句要素入力手段
131 バッチ処理部
132 新規辞書対応部
141 新規登録受信部
142 登録更新受信部
143 受信ユーザ学習辞書バッファ
151 リアルタイム送信部
152 メール送信部
UGJ ユーザ学習辞書
UDB ユーザ学習辞書登録データベース
ui ユーザ識別番号
ji ユーザ学習辞書識別番号
UGJgroup 辞書グループ
GDB 辞書グループデータベース
gi グループ識別番号
MJIL メンバ辞書識別番号リスト
gs(gi) グループサイズ
CKYL コア共有単語語句要素集合
Ct 共有要素個数閾値
KDB(gi) 共有度数データベース
r 共有度数
ERL 等共有度数要素リスト
よみ文字列
ym 表示文字列hm
ty 単語語句要素
hty 補完単語語句要素
kty 共有単語語句要素
sent 文章データ
Dict 単語語句辞書

Claims (3)

  1. ユーザが使用した単語または語句のよみ文字列と対応する該単語または語句の表示文字列との対を含む単語語句要素の集合であるユーザ学習辞書を内蔵する端末装置と、前記ユーザ学習辞書に対して、さらに適切な追加すべき新しい単語語句である補完単語語句を提案する少なくとも1つの補完単語語句提案装置とがネットワークを介して接続されたネットワークシステムの補完単語語句提案方法であって、
    前記補完単語語句提案装置の類似状況解析手段で、前記端末装置から送信され、かつユーザ学習辞書登録データベースに登録された全ての前記ユーザ学習辞書の中から選択した前記ユーザ学習辞書の全てに第1の単語語句要素が共通して含まれるように前記ユーザ学習辞書を選択し、前記選択されたユーザ学習辞書をグループ化して、辞書グループデータベースを生成または更新し、
    前記補完単語語句提案装置の共有状況解析手段で、前記辞書グループデータベース内の第2の単語語句要素がいくつのユーザ学習辞書に共有されているかを表す共有度数を求めて、前記共有度数の大きさによって前記第2の単語語句要素を順序付けし、
    前記補完単語語句提案装置の補完単語語句選択手段で、前記順序付けられた第2の単語語句要素の中から、順序付けに基づいて補完単語語句要素とすべき前記第2の単語語句要素を選択し、
    前記補完単語語句提案装置の補完単語語句要素送信手段で、補完単語語句要素とすべき前記第2の単語語句要素を対象となる特定の前記端末装置の前記ユーザ学習辞書に提案する
    ことを含むことを特徴とする補完単語語句提案方法。
  2. ユーザが使用した単語または語句のよみ文字列と対応する該単語または語句の表示文字列との対を含む単語語句要素の集合であるユーザ学習辞書を内蔵する端末装置と、前記ユーザ学習辞書に対して、さらに適切な追加すべき新しい単語語句である補完単語語句を提案する少なくとも1つの補完単語語句提案装置とがネットワークを介して接続されたネットワークシステムの補完単語語句提案情報処理を、コンピュータに実行させるプログラムであって、
    コンピュータに、
    前記端末装置から提供され、かつユーザ学習辞書登録データベースに登録された全ての前記ユーザ学習辞書の中から選択した前記ユーザ学習辞書の全てに第1の単語語句要素が共通して含まれるように前記ユーザ学習辞書を選択し、前記選択されたユーザ学習辞書をグループ化して、辞書グループデータベースを生成または更新類似状況を解析させ、
    前記辞書グループデータベース内の第2の単語語句要素がいくつのユーザ学習辞書に共有されているかを表す共有度数を求めて、前記共有度数の大きさによって前記第2の単語語句要素を順序付ける共有状況を解析させ、
    前記順序付けられた第2単語語句要素の中から、順序付けに基づいて補完単語語句要素とすべき第2の単語語句要素を選択させ、
    前記共有単語語句要素とすべき前記第2の単語語句要素を対象となる特定の前記端末装置の前記ユーザ学習辞書に提案する処理を実行させるプログラム。
  3. ユーザが使用した単語または語句のよみ文字列と対応する該単語または語句の表示文字列との対を含む単語語句要素の集合であるユーザ学習辞書を内蔵する端末装置の前記ユーザ学習辞書に対して、ネットワークを介してさらに適切な追加すべき新しい単語語句である補完単語語句を提案する補完単語語句提案装置であって、
    前記端末装置から送信され、かつユーザ学習辞書登録データベースに登録された全ての前記ユーザ学習辞書の中から選択した前記ユーザ学習辞書の全てに第1の単語語句要素が共通して含まれるように前記ユーザ学習辞書を選択し、前記選択されたユーザ学習辞書をグループ化して、辞書グループデータベースを生成または更新する類似状況解析手段と、
    前記辞書グループデータベース内の第2の単語語句要素がいくつのユーザ学習辞書に共有されているかを表す共有度数を求めて、前記共有度数の大きさによって前記第2の単語語句要素を順序付ける共有状況解析手段と、
    前記順序付けられた前記第2の単語語句要素の中から、順序付けに基づいて補完単語語句要素とすべき前記第2の単語語句要素を選択する補完単語語句選択手段と、
    補完単語語句要素とすべき前記第2の単語語句要素を対象となる特定の前記端末装置の前記ユーザ学習辞書に提案する補完単語語句要素送信手段と、
    を有することを特徴とする補完単語語句提案装置。
JP2006004474A 2006-01-12 2006-01-12 補完単語語句提案方法、プログラムおよび補完単語語句提案装置 Expired - Fee Related JP4821328B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006004474A JP4821328B2 (ja) 2006-01-12 2006-01-12 補完単語語句提案方法、プログラムおよび補完単語語句提案装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006004474A JP4821328B2 (ja) 2006-01-12 2006-01-12 補完単語語句提案方法、プログラムおよび補完単語語句提案装置

Publications (2)

Publication Number Publication Date
JP2007188199A JP2007188199A (ja) 2007-07-26
JP4821328B2 true JP4821328B2 (ja) 2011-11-24

Family

ID=38343340

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006004474A Expired - Fee Related JP4821328B2 (ja) 2006-01-12 2006-01-12 補完単語語句提案方法、プログラムおよび補完単語語句提案装置

Country Status (1)

Country Link
JP (1) JP4821328B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5520886B2 (ja) * 2011-05-27 2014-06-11 日本電信電話株式会社 行動モデル学習装置、方法、及びプログラム
JP7279572B2 (ja) 2019-08-06 2023-05-23 株式会社Jvcケンウッド 情報処理装置、プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10275142A (ja) * 1997-03-31 1998-10-13 Toshiba Corp 情報処理装置、辞書管理装置、ネットワークシステム、及び情報処理装置の辞書管理方法
JP2005110060A (ja) * 2003-09-30 2005-04-21 Kyocera Corp 無線通信端末および無線通信端末のデータ処理方法
JP4124115B2 (ja) * 2003-12-02 2008-07-23 ソニー株式会社 情報処理装置及び情報処理方法、並びにコンピュータ・プログラム
JP4792885B2 (ja) * 2005-09-15 2011-10-12 日本電気株式会社 自然言語処理システム、自然言語処理方法、自然言語処理プログラム

Also Published As

Publication number Publication date
JP2007188199A (ja) 2007-07-26

Similar Documents

Publication Publication Date Title
US9032031B2 (en) Apparatus, method and computer program product for processing email, and apparatus for searching email
US20200314053A1 (en) Method, device and software product for filling an address field of an electronic message
US20160253414A1 (en) System for processing data received from various data sources
JP2005092271A (ja) 質問応答方法及び質問応答装置
JP2014132479A (ja) データベース構築装置、商標侵害検知装置、データベース構築方法、およびプログラム
US7302427B2 (en) Text mining server and program
JP5312637B2 (ja) データベース構築装置、データベース構築方法、およびプログラム
JP4821328B2 (ja) 補完単語語句提案方法、プログラムおよび補完単語語句提案装置
US6553103B1 (en) Communication macro composer
KR101475339B1 (ko) 통신 단말기 및 그의 통합 자연어 인터페이스 방법
US8069189B2 (en) Portable terminal
JP2003108278A (ja) 文書表示システム、受信装置、文書表示方法、および記録媒体
JP2020071534A (ja) 情報処理システム、情報処理方法及び情報処理プログラム
US7596601B2 (en) Mobile communication terminal, detection condition distribution server and detected mail notification receiving server
JP6549173B2 (ja) 計算機システム及び文章データの検索方法
JP2006293855A (ja) 性格診断装置、サーバコンピュータ、性格診断方法及び性格診断プログラム
JP4872433B2 (ja) 言語処理装置、携帯端末及び言語処理方法
JP2008129711A (ja) 入力文字変換システム
JP5403273B2 (ja) 情報処理装置、情報処理システム、情報処理方法、及びプログラム
JP2009122738A (ja) 情報処理装置、情報処理方法、およびプログラム
JP3863041B2 (ja) 文書作成システム、文書テンプレート登録装置及び方法、プログラム、並びに文書テンプレート登録データ
JP2001014309A (ja) 文字変換装置及びその方法と文字変換のためのプログラムを記録した記録媒体
JP4228697B2 (ja) 通信電子辞書、電子辞書プログラム
JP2012027719A (ja) メールアドレス誤入力判定システムおよびメールアドレス誤入力判定プログラム
JP2005018344A (ja) キーワードベクトル辞書生成装置とシステムおよびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080911

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110329

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110527

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110809

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110822

R150 Certificate of patent or registration of utility model

Ref document number: 4821328

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140916

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees