JP2016508264A - 入力文字列に対応する入力候補アイテムを提供する方法及び装置 - Google Patents

入力文字列に対応する入力候補アイテムを提供する方法及び装置 Download PDF

Info

Publication number
JP2016508264A
JP2016508264A JP2015549962A JP2015549962A JP2016508264A JP 2016508264 A JP2016508264 A JP 2016508264A JP 2015549962 A JP2015549962 A JP 2015549962A JP 2015549962 A JP2015549962 A JP 2015549962A JP 2016508264 A JP2016508264 A JP 2016508264A
Authority
JP
Japan
Prior art keywords
input
character string
input character
candidate items
context information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015549962A
Other languages
English (en)
Other versions
JP6114403B2 (ja
JP2016508264A5 (ja
Inventor
ヤンヤン ルウ,
ヤンヤン ルウ,
ケフェン メン,
ケフェン メン,
Original Assignee
バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド, バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド filed Critical バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
Publication of JP2016508264A publication Critical patent/JP2016508264A/ja
Publication of JP2016508264A5 publication Critical patent/JP2016508264A5/ja
Application granted granted Critical
Publication of JP6114403B2 publication Critical patent/JP6114403B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0237Character input methods using prediction or retrieval techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/018Input/output arrangements for oriental characters

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】入力文字列に対応する入力候補アイテムを提供する方法及び装置を提供する。【解決手段】本発明の方法は、入力装置で入力文字列を取得するステップと、入力文字列の文脈情報を確定するステップと、入力文字列及び文脈情報に基づいて入力文字列に対応する入力候補アイテムを確定するステップと、一つ又は複数の入力候補アイテムのうち少なくとも一つを入力文字列に対応する目的アプリケーションに提供するステップとを含む。入力文字列の文脈情報に基づいて入力文字列に対応する一つ又は複数の入力候補アイテムを確定するとともに、一つ又は複数の入力候補アイテムのうち少なくとも一つを入力文字列に対応する目的アプリケーションに提供することにより、従来に比べ、入力柔軟性を高め、ユーザの入力ニーズにマッチングし、さらに入力方法の入力効率を高め、ユーザ体験を改善する。【選択図】 図4

Description

本発明は、インターネットの技術分野に属し、特に入力文字列に対応する入力候補アイテムを提供する技術に関する。
中国語入力については、多くの同音異義語が存在しているが、実際にユーザは入力の過程においてそのうちの一つだけを選択し、現在の入力方法では、複数の入力候補アイテムをユーザに提供して必要に応じて選択し、入力候補アイテムが多い場合、ユーザが選択動作を行うと、入力が遅くなり、効率が低くなっている。文字の入力の間に一定のセマンティック又は論理関係があることを考慮すると、どのように前記セマンティック又は論理関係を利用して入力候補アイテムを処理することにより、ユーザの使用体験を高めるかは、当業者が緊急に解決する必要がある一つの問題となる。
本発明は、入力文字列に対応する入力候補アイテムを提供する方法及び装置を提供することを目的とする。
本発明の一つの形態によれば、
a、入力文字列を取得するステップと、
b、前記入力文字列の文脈情報を確定するステップと、
c、前記入力文字列及び前記文脈情報に基づいて、前記入力文字列に対応する一つ又は複数の入力候補アイテムを確定するステップと、
d、前記一つ又は複数の入力候補アイテムのうち少なくとも一つを、前記入力文字列に対応する目的アプリケーションに提供するステップと、
を含む入力文字列に対応する入力候補アイテムを提供する方法を提供する。
本発明の他の形態によれば、
入力文字列を取得する取得装置と、
前記入力文字列の文脈情報を確定する文脈確定装置と、
前記入力文字列及び前記文脈情報に基づいて、前記入力文字列に対応する一つ又は複数の入力候補アイテムを確定する候補アイテム確定装置と、
前記一つ又は複数の入力候補アイテムのうち少なくとも一つを、前記入力文字列に対応する目的アプリケーションに提供する提供装置と、
を含む入力文字列に対応する入力候補アイテムを提供する入力装置をさらに提供する。
従来の技術に比べると、本発明は、入力文字列の文脈情報に基づいて、前記入力文字列に対応する一つ又は複数の入力候補アイテムを確定するとともに、前記一つ又は複数の入力候補アイテムのうち少なくとも一つを、前記入力文字列に対応する目的アプリケーションに提供することにより、入力柔軟性を高め、ユーザの入力ニーズにマッチングし、さらに入力方法の入力効率を高め、ユーザ体験を改善する。
そして、本発明は、前記入力文字列に対応する一つ又は複数の予備入力候補アイテムを処理することにより、前記一つ又は複数の入力候補アイテムを取得してもよく、また、前記予備入力候補アイテムが前記文脈情報に対応する共起関連度情報に基づいて、前記一つ又は複数の予備入力候補アイテムを処理することにより、前記一つ又は複数の入力候補アイテムを取得してもよく、さらに、テキスト情報に対する分析処理に基づいて、共起頻度が一定の閾値を満たす単語分割共起関係を取得することにより、前記単語共起データベースを確立するか又は更新してもよく、これにより、入力文字列と入力候補アイテムとのマッチング正確度を高め、ユーザの入力ニーズにマッチングし、入力方法の入力効率を高め、ユーザ体験を改善する。
そして、本発明は、前記入力文字列を含む補完文字列を確定するとともに、前記補完文字列に基づいて、前記補完文字列に対応する一つ又は複数の補完入力候補アイテムを取得し、前記補完入力候補アイテムを選別処理することにより、前記一つ又は複数の入力候補アイテムを取得してもよく、これにより、入力柔軟性を高め、入力文字列と入力候補アイテムとのマッチング正確度を高め、ユーザの入力ニーズにマッチングし、入力方法の入力効率を高め、ユーザ体験を改善する。
そして、本発明は、前記入力文字列に対応する相関テキストに対して自然言語処理を行うことにより、前記相関テキストから対応の焦点単語を前記文脈として抽出してもよく、これにより、入力文字列と入力候補アイテムとのマッチング正確度を高め、ユーザの入力ニーズにマッチングし、入力方法の入力効率を高め、ユーザ体験を改善する。
そして、本発明は、前記入力文字列が所定の長さ閾値を超えるか否かを検出し、前記入力文字列が前記長さ閾値を超えていれば、前記入力文字列及び前記文脈情報に基づいて、前記入力文字列に対応する一つ又は複数の入力候補アイテムを反復確定し、また、前記入力文字列に対応する入力シソーラス中の一つ又は複数のサンプリング入力候補アイテムのうち少なくとも一つの文字数が所定の文字数閾値を超えるか否かを検出することにより、前記入力文字列が所定の長さ閾値を超えるか否かを確定し、さらに、前記入力文字列が前記長さ閾値を超えた場合、部分入力候補アイテムと他の入力候補アイテムを確定するとともに、前記一つ又は複数の部分入力候補アイテム及び前記一つ又は複数の他の入力候補アイテムに基づいて、前記一つ又は複数の入力候補アイテムを確定してもよく、これにより、入力柔軟性を高め、入力文字列と入力候補アイテムとのマッチング正確度を高め、ユーザの入力ニーズにマッチングし、入力方法の入力効率を高め、ユーザ体験を改善する。
以下、本発明の他の特徴、目的及び利点をより明確にするために、図面を参照しながら、限定的ではない実施例について詳しく説明する。
図1は、本発明の一つの形態に係る入力文字列に対応する入力候補アイテムを提供する入力装置を示す概略図である。 図2は、本発明の一つの好ましい実施例に係る入力文字列に対応する入力候補アイテムを提供する入力装置を示す概略図である。 図3は、本発明の他の好ましい実施例に係る入力文字列に対応する入力候補アイテムを提供する入力装置を示す概略図である。 図4は、本発明の他の形態に係る入力文字列に対応する入力候補アイテムを提供する方法を示すフローチャートである。 図5は、本発明の一つの好ましい実施例に係る入力文字列に対応する入力候補アイテムを提供する方法を示すフローチャートである。 図6は、本発明の他の好ましい実施例に係る入力文字列に対応する入力候補アイテムを提供する方法を示すフローチャートである。 図面において、同じ又は類似する図面符号は、同じ又は類似する部材を示す。
以下、図面を参照しながら本発明をさらに詳しく説明する。
図1は、本発明の一つの形態に係る入力文字列に対応する入力候補アイテムを提供する入力装置を示す概略図であり、前記入力装置は、取得装置11、文脈確定装置12、候補アイテム確定装置13及び提供装置14を含む。具体的には、取得装置11は、入力文字列を取得し、文脈確定装置12は、前記入力文字列の文脈情報を確定し、候補アイテム確定装置13は、前記入力文字列及び前記文脈情報に基づいて、前記入力文字列に対応する一つ又は複数の入力候補アイテムを確定し、提供装置14は、前記一つ又は複数の入力候補アイテムのうち少なくとも一つを、前記入力文字列に対応する目的アプリケーションに提供する。
ここで、入力装置は、ネットワーク装置、ユーザ装置、又はネットワーク装置とユーザ装置をネットワークを介して統合して構成された装置を含むが、これらに限られない。
そのうち、前記ネットワーク装置は、コンピュータ、ネットワークホスト、単一のネットワークサーバ、複数のネットワークサーバ群又は複数のサーバで構成されたクラウドを含むが、これらに限られず、ここで、クラウドは、クラウドコンピューティング(CloudComputing)に基づく多くのコンピュータ又はネットワークサーバで構成され、そのうち、クラウドコンピューティングは、分散コンピューティングの1種であり、複数の疎結合されたコンピュータクラスタで一つの仮想スーパーコンピュータを構成する。
前記ユーザ装置は、キーボード、リモコン、タッチパネル、又は音声作動装置を介してユーザとヒューマンコンピュータインタラクションを行うことができるいずれか1種の電子製品、例えばコンピュータ、スマートフォン、PDA、ゲーム機器又はIPTV等を含むが、これらに限られない。前記ネットワークは、インターネット、ワイドエリアネットワーク、メトロポリタンエリアネットワーク、ローカルエリアネットワーク、VPNネットワーク、無線アドホックネットワーク(AdHocネットワーク)等を含むが、これらに限られない。当業者にとって、他の入力装置も同様に本発明に適用され、本発明の保護範囲内に含まれるべきであり、かつここで引用方式で含まれると理解すべきである。
上記各装置間は持続的に動作し、ここで、当業者にとって、「持続的」とは、上記各装置がそれぞれ実時間に、或いは、設定されたか又は実時間に調整された動作モード要件に応じて、入力装置が入力文字列の取得を停止するまで、入力文字列の取得、文脈情報の確定、入力候補アイテムの確定、入力候補アイテムの提供等を行うことをいうと理解すべきである。
取得装置11は入力文字列を取得する。具体的には、前記取得装置11は、入力ボックスからユーザ又は他のアプリケーション等が入力、選択、クリック等の動作で入力した文字列を受信することにより、又は各種の通信プロトコル(CommunicationsProtocol)に基づいて、各種のデータ伝送インタフェースを介して、他のアプリケーションからの入力ボックスにおける文字列を取得し、そのうち、前記入力ボックスは、例えばショートメッセージ編集ボックス、内容入力ボックス等である。そのうち、前記入力文字列は、例えば、全ピン又は簡ピン等の方式で入力されたピンイン符号化文字(ふりがなに相当)等を含むが、これらに限られない。
文脈確定装置12は、前記入力文字列の文脈情報を確定する。具体的には、前記文脈確定装置12は、取得装置11により取得された入力文字列に基づいて、現在入力された文字列に属する文字等を用いて、前記現在入力文字列に属する文字を一つ又は複数のシソーラスとマッチングして、前記入力文字列と関連する1種又は複数種のマッチング情報を、前記入力文字列の文脈情報として取得し、例えば、「huacao」を入力すると、まず前記入力文字列に属する文字が「花草」である可能性があると確定し、「花草」の所属シソーラスにおけるマッチング情報に基づいて、その下文情報が「茶」等である可能性があると確定し、或いは、前記文脈確定装置12は、前記入力文字列に対応する履歴記録情報に基づいて、前記入力文字列の文脈情報を確定し、例えば、前記入力文字列の直前に入力された前の一つの入力文字列を、前記入力文字列の上文情報とすることができる。
ここで、前記文脈情報は、前記入力文字列に対応する上文情報又は下文情報を含むが、これらに限られず、例えば、前記入力が「shishi」で、前回に入力された語句が「客観的」であると、前記「shishi」に対応する上文情報が「客観的」であり、また、スクリーンに一つの語句「計画」が存在し、かつ「shishi」を入力するとき、カーソルが「計画」の前に位置すれば、それに対応する下文情報が「計画」等である。
候補アイテム確定装置13は、前記入力文字列及び前記文脈情報に基づいて、前記入力文字列に対応する一つ又は複数の入力候補アイテムを確定する。具体的には、候補アイテム確定装置13は、取得装置11により取得された入力文字列、及び文脈確定装置12により確定された文脈情報に基づいて、前記入力文字列に対応する一つ又は複数の文脈情報を直接的に一つ又は複数の入力候補アイテムとする方式、又は前記入力文字列に対応する文脈情報を処理した後に入力候補アイテムとする方式で、前記入力文字列に対応する一つ又は複数の入力候補アイテムを確定する。例えば、上例に続き、前記入力文字列が「shishi」であると、それに対応する上文情報が「客観的」、「私」、「議論」等である可能性があり、前記上文情報が「客観的」であると、前記入力文字列及び前記文脈情報をマッチングする等の方式で、入力候補アイテムが「事実」、「実時間」、「実施」等であると確定し、前記上文情報が「私」であると、入力候補アイテムが「試みる」、「実施」、「試みる」等であると確定し、前記上文情報が「議論」であると、入力候補アイテムが「時事」、「事実」、「世事」等であると確定する。
提供装置14は、前記一つ又は複数の入力候補アイテムのうち少なくとも一つを、前記入力文字列に対応する目的アプリケーションに提供する。具体的には、提供装置14は、前記一つ又は複数の入力候補アイテムのうち少なくとも一つを、直接的に前記入力文字列に対応する目的アプリケーションに提供し、或いは、各種の通信プロトコル(CommunicationsProtocol)に基づいて、各種のデータ伝送インタフェースを介して、例えば改めて順序付けるか又は選別する等の方式で、前記入力文字列に対応する目的アプリケーションに提供する。そのうち、前記目的アプリケーションは、前記取得装置11に対応する入力ボックスに対応する同一のアプリケーション、又は前記取得装置11に対応する入力ボックスに関連する他のアプリケーション等を含むが、これらに限られず、例えば、直接的に前記入力候補アイテムを用いて検索を行う等である。
好ましくは、前記候補アイテム確定装置13は、前記入力文字列及び前記文脈情報に基づいて、前記入力文字列を含む補完文字列を確定し、そのうち、前記補完文字列が前記文脈情報に対応する文字列をさらに含み、前記補完文字列に基づいて、入力シソーラスにおいてマッチングクエリを行うことにより、前記補完文字列に対応する一つ又は複数の補完入力候補アイテムを取得し、前記文脈情報に基づいて、前記一つ又は複数の補完入力候補アイテムを選別処理することにより、前記一つ又は複数の入力候補アイテムを取得してもよい。
具体的には、前記候補アイテム確定装置13は、前記入力文字列及び前記文脈情報に基づいて、前記入力文字列と前記文脈情報を組み合わせて、例えば入力シソーラスとマッチングする等の方式で、前記入力文字列を含む補完文字列を確定してもよく、例えば、入力文字列が「xuxu」で、文脈情報が「形態」であると、前記補完文字列が「rusheng」であると確定し、或いは、入力文字列が「tianan」で、文脈情報が「北京」であると、前記補完文字列が「men」であると確定し、ここで、前記補完文字列は、マッチング等の方式で確定される一つ又は複数の接合されてなる複数段文字列を含むが、これらに限られない。
前記候補アイテム確定装置13は、前記補完文字列を入力シソーラスにおいてマッチングクエリすることにより、前記補完文字列に対応する一つ又は複数の補完入力候補アイテムを取得し、前例に続き、前記補完文字列が「rusheng」である場合に、対応する補完入力候補アイテムは、例えば「如生」、「入声」、「入勝」等であり、前記補完文字列が「men」である場合に、対応する補完入力候補アイテムは、例えば「天安門」、「門」等である。又は、前記補完入力候補アイテムは、直接的に前記文脈情報を含み、例えば直接的に「形態栩栩如生」、「北京天安門」等を生成してもよい。
前記文脈情報に基づいて、前記一つ又は複数の補完入力候補アイテムを選別処理し、前例に続き、文脈情報に基づいて、それぞれ入力候補アイテムが「栩栩如生」、「天安門」であると確定することにより、前記一つ又は複数の入力候補アイテムを取得し、ここで、前記補完入力候補アイテムに文脈情報を含むと、前記補完入力候補アイテムにおける文脈情報を削除した後、前記一つ又は複数の入力候補アイテムを取得し、例えば、前記補完入力候補アイテム「北京天安門」における「北京」を削除して、前記一つ又は複数の入力候補アイテム「天安門」を取得する。
好ましくは、前記文脈確定装置12は、前記入力文字列に対応する相関テキストに対して自然言語処理を行うことにより、前記相関テキストから対応の焦点単語を前記文脈として抽出してもよく、そのうち、前記焦点単語は、前記入力文字列に対応する入力位置に近接する。具体的には、前記文脈確定装置12は、単語分割又はセマンティック分析等の方式で、前記入力文字列に対応する相関テキストに対して自然言語処理を行ってもよく、そのうち、前記相関テキストは、前記入力文字列自身に対応するテキスト、又は前記入力文字列に対応する入力位置の前後に入力された相関テキストを含むが、これらに限られず、前記相関テキストから、自然言語処理により、対応する焦点単語を前記文脈として抽出する。例えば、前記入力文字列が「shishi」であると、それに対応する相関テキストが「上海地下鉄一期工程」であり、かつ前記入力文字列が「上海地下鉄一期工程」の後に位置し、前記相関テキストに対して自然言語処理を行うことにより、焦点単語である「工程」を抽出するとともに、「工程」を文脈とする。さらに、従って、入力文字列が「shishi」であると、当該入力装置は、前記文脈「工程」に基づいて、入力候補アイテムが「実施」、「実時間」、「試みる」等であると確定する。
図2は、本発明の一つの好ましい実施例に係る入力文字列に対応する入力候補アイテムを提供する入力装置を示す概略図であり、そのうち、前記入力装置は、取得装置11’、文脈確定装置12’、候補アイテム確定装置13’、提供装置14’を含み、ここで、前記候補アイテム確定装置13’は、マッチング手段131’及び処理手段132’を含む。具体的には、取得装置11’は、入力文字列を取得し、文脈確定装置12’は、前記入力文字列の文脈情報を確定し、マッチング手段131’は、前記入力文字列に基づいて、入力シソーラスにおいてマッチングクエリを行うことにより、前記入力文字列に対応する一つ又は複数の予備入力候補アイテムを取得し、処理手段132’は、前記文脈情報に基づいて、前記一つ又は複数の予備入力候補アイテムを処理することにより、前記一つ又は複数の入力候補アイテムを取得し、提供装置14’は、前記一つ又は複数の入力候補アイテムのうち少なくとも一つを、前記入力文字列に対応する目的アプリケーションに提供する。そのうち、前記取得装置11’、文脈確定装置12’、提供装置14’は、図1に示す対応の装置と同じ又は基本的に同じであるので、ここで再度記述せず、引用の方式でここに含まれる。
上記各装置間は持続的に動作し、ここで、当業者にとって、「持続的」とは、上記各装置がそれぞれ実時間に、或いは、設定されたか又は実時間に調整された動作モード要件に応じて、入力装置が入力文字列の取得を停止するまで、入力文字列の取得、文脈情報の確定、予備入力候補アイテムの取得、入力候補アイテムの確定、入力候補アイテムの提供等を行うことをいうと理解すべきである。
マッチング手段131’は、前記入力文字列に基づいて、入力シソーラスにおいてマッチングクエリを行うことにより、前記入力文字列に対応する一つ又は複数の予備入力候補アイテムを取得する。具体的には、前記マッチング手段131’は、前記入力文字列を取得して、前記入力文字列を入力シソーラスにおける単語とマッチングすることにより、前記入力文字列に対応する一つ又は複数の予備入力候補アイテムを取得する。例えば、入力文字列が「shishi」であると、入力シソーラスにおいてマッチングクエリを行った後に、「実時間」、「試みる」、「実施」、「事実」、「適時」、「逝世」等の複数の予備入力候補アイテムを取得する。
処理手段132’は、前記文脈情報に基づいて、前記一つ又は複数の予備入力候補アイテムを処理することにより、前記一つ又は複数の入力候補アイテムを取得する。具体的には、処理手段132’は、前記入力文字列の文脈情報に基づいて、自然言語モデル又は単語共起データベース等に基づいて、文脈情報と予備入力候補アイテムの共起確率を確定するとともに、前記共起確率に基づいて前記予備入力候補アイテムを選別するか又は順序付けることにより、入力候補アイテムを取得する。例えば、前例に続き、文脈情報が「客観的」であると、処理された後、予備入力候補アイテムを改めて順序付けることにより、順序が「事実」、「実時間」、「試みる」、「実施」、「適時」、「逝世」等に変更される。
好ましくは、前記処理手段132’は、前記文脈情報に基づいて、単語共起データベースにおいてマッチングクエリを行うことにより、前記予備入力候補アイテムと前記文脈情報が対応する共起関連度情報を確定し、前記共起関連度情報に基づいて、前記一つ又は複数の予備入力候補アイテムを処理することにより、前記一つ又は複数の入力候補アイテムを取得してもよい。具体的には、前記処理手段132’は、前記文脈情報に基づいて、単語共起データベースにおいてマッチングクエリを行い、前記単語共起データベースにおける一つ又は複数の見出し語と前記文脈とのマッチング関係等に基づいて、前記予備入力候補アイテムと前記文脈情報が対応する共起関連度情報を確定し、例えば、bull変数であれば、前記共起関連度情報が、例えば共起が存在するか否かを示し、或いは、連続的変数であれば、前記共起関連度情報が共起確率の多少を示し、ここで、前記共起関連度情報は、例えば単語共起データベース又は他の相関データベースにおける文脈と予備入力候補アイテムとの組み合わせ頻度等に基づいて、機械学習により取得することができる。前記共起関連度情報に基づいて、前記一つ又は複数の予備入力候補アイテムに対して、例えば選別又は順序付けの処理を行うことにより、前記一つ又は複数の入力候補アイテムを取得する。
さらに好ましくは、前記入力装置はテキスト処理装置(図示せず)及び確立装置(図示せず)をさらに含み、そのうち、テキスト処理装置は、一つ又は複数のテキスト情報を分析処理することにより、共起頻度が一定の閾値を満たす単語分割共起関係を取得し、確立装置は、前記単語分割共起関係に基づいて、前記単語共起データベースを確立するか又は更新する。具体的には、テキスト処理装置は、例えば各種のログ、各種の文章等を取得するとともに、取得されたテキスト情報に対して、例えばまず単語分割を行い、次に隣接単語間の共起頻度を統計する等の分析方法により、前記共起頻度が一定の閾値を超えた場合、前記隣接単語の間に一定の共起関係が存在していると判断することにより、共起頻度が一定の閾値を満たす単語分割共起関係を取得し、確立装置は、前記単語分割共起関係に基づいて、前記単語共起データベースを確立し、或いは、従来の単語共起データベースに対して更新等を行い、ここで、前記単語共起データベースは、単語分割共起関係及び単語分割共起関係の間の共起確率情報を含むが、これらに限られず、かつ、前記単語共起データベースは、従来の固定語、例えば成語、俗語等を含むとともに、前記更新を行った後、従来のネットワークアプリケーションの高速発展により生じられた新しい単語及び記述を含むことにより、ユーザの入力効率を有効に高めることができる。
図3は、本発明の他の好ましい実施例に係る入力文字列に対応する入力候補アイテムを提供する入力装置を示す概略図であり、そのうち、前記入力装置は、取得装置11”、文脈確定装置12”、候補アイテム確定装置13”、提供装置14”を含み、ここで、前記候補アイテム確定装置13”は、検出手段133”及び反復手段134”を含む。具体的には、取得装置11”は入力文字列を取得し、文脈確定装置12”は前記入力文字列の文脈情報を確定し、検出手段133”は前記入力文字列が所定の長さ閾値を超えるか否かを検出し、前記入力文字列が前記長さ閾値を超えていれば、反復手段134”は前記入力文字列及び前記文脈情報に基づいて、前記入力文字列に対応する一つ又は複数の入力候補アイテムを反復確定し、提供装置14”は、前記一つ又は複数の入力候補アイテムのうち少なくとも一つを、前記入力文字列に対応する目的アプリケーションに提供する。そのうち、前記取得装置11”、文脈確定装置12”、提供装置14”は、図1に示す対応の装置と同じ又は基本的に同じであるので、ここで再度記述せず、引用の方式でここに含まれる。
上記各装置間は持続的に動作し、ここで、当業者にとって、「持続的」とは、上記各装置がそれぞれ実時間に、或いは、設定されたか又は実時間に調整された動作モード要件に応じて、入力装置が入力文字列の取得を停止するまで、入力文字列の取得、文脈情報の確定、長さ閾値の検出、入力候補アイテムの確定、入力候補アイテムの提供等を行うことをいうと理解すべきである。
検出手段133”は、前記入力文字列が所定の長さ閾値を超えるか否かを検出する。具体的には、前記検出手段133”は、プリセットされたか又はユーザが自ら設置した長さ閾値に基づいて、前記入力文字列の長さを検出し、前記入力文字列の長さが所定の長さ閾値を超えるか否かを検出する。例えば、所定の文字長さ閾値がNで、前記入力文字列の長さがN+1である場合、検出手段133”は、前記入力文字列が所定の長さ閾値を超えたと検出する。
前記入力文字列が前記長さ閾値を超えていれば、反復手段134”は、前記入力文字列及び前記文脈情報に基づいて、前記入力文字列に対応する一つ又は複数の入力候補アイテムを反復確定する。具体的には、前記入力文字列が前記長さ閾値を超えていれば、反復手段134”は、前記入力文字列及び前記文脈情報に基づいて、例えば前記長さ閾値に基づいて、前記入力文字列に対してセグメント分け等の処理を行い、第一つの長さ閾値の入力文字列に対応する前記入力候補アイテムを確定するとともに、確定された入力候補アイテムを再度文脈情報とすることにより、次の長さ閾値の入力文字列に対応する入力候補アイテムを反復確定する等の方式で、前記入力文字列に対応する一つ又は複数の入力候補アイテムを確定する。
好ましくは、前記検出手段133”は、前記入力文字列に対応する入力シソーラス中の一つ又は複数のサンプリング入力候補アイテムを取得し、前記一つ又は複数のサンプリング入力候補アイテムのうち少なくとも一つの文字数が所定の文字数閾値を超えるか否かを検出することにより、前記入力文字列が所定の長さ閾値を超えるか否かを確定してもよい。具体的には、前記検出手段133”は、例えば前記入力文字列を直接的に前記入力シソーラスにおいてマッチングすることにより、前記全部入力文字列に対応する一つ又は複数の入力候補アイテムを取得するとともに、その中からランダムに抽出するか又は指定抽出する(例えば例えば第一つの入力候補アイテムを選択する等の)方式で、前記入力文字列に対応する入力シソーラス中の一つ又は複数のサンプリング入力候補アイテムを取得し、前記一つ又は複数のサンプリング入力候補アイテムを検出することにより、前記サンプリング入力候補アイテムのうち少なくとも一つの文字数が所定の文字数閾値を超えていれば、前記入力文字列が所定の長さ閾値を超えるか否かを確定してもよい。
好ましくは、前記反復手段134”は、前記入力文字列が前記長さ閾値を超えた場合、前記文脈情報、及び前記入力文字列における前記文脈情報と隣接する部分入力文字列に基づいて、前記部分入力文字列に対応する一つ又は複数の部分入力候補アイテムを確定し、前記部分入力文字列、及び前記入力文字列における他の入力文字列に基づいて、前記他の入力文字列に対応する一つ又は複数の他の入力候補アイテムを確定してもよく、そのうち、前記部分入力候補アイテムは、前記他の入力文字列の文脈情報として用いられ、前記一つ又は複数の部分入力候補アイテム及び前記一つ又は複数の他の入力候補アイテムに基づいて、前記一つ又は複数の入力候補アイテムを確定する。
具体的には、前記入力文字列が前記長さ閾値を超えた場合、前記文脈情報に基づいて、例えば単語分割等の処理により、前記入力文字列に対して単語分割又はセグメント分け等を行うことにより、前記入力文字列における前記文脈情報と隣接する部分入力文字列を取得し、前記部分入力文字列と前記文脈情報を組み合わせることにより、前記部分入力文字列に対応する一つ又は複数の部分入力候補アイテムを確定し、ここで、前記確定方法は、図1における前記候補アイテム確定装置13の確定方法と同じ又は類似するため、ここで再度記述せず、引用の方式でここに含まれる。前記反復手段134”は、前記部分入力候補アイテムを他の入力文字列の文脈情報として、反復の方式で、前記他の入力文字列に対応する一つ又は複数の他の入力候補アイテムを確定し、反復後に例えば文字列間の関係に基づいて、前記部分入力候補アイテムと他の入力候補アイテムを接合する等の方式で、一つ又は複数の入力候補アイテムを確定する。
図4は、本発明の他の形態に係る入力文字列に対応する入力候補アイテムを提供する方法を示すフローチャートである。具体的には、ステップs1では、入力装置は入力文字列を取得し、ステップs2では、入力装置は前記入力文字列の文脈情報を確定し、ステップS3では、入力装置は前記入力文字列及び前記文脈情報に基づいて、前記入力文字列に対応する一つ又は複数の入力候補アイテムを確定し、ステップs4では、入力装置は前記一つ又は複数の入力候補アイテムのうち少なくとも一つを、前記入力文字列に対応する目的アプリケーションに提供する。
上記各ステップ間は持続的に動作し、ここで、当業者にとって、「持続的」とは、上記各ステップがそれぞれ実時間に、或いは、設定されたか又は実時間に調整された動作モード要件に応じて、入力装置が入力文字列の取得を停止するまで、入力文字列の取得、文脈情報の確定、入力候補アイテムの確定、入力候補アイテムの提供等を行うことをいうと理解すべきである。
ステップs1では、入力装置は入力文字列を取得する。具体的には、ステップs1では、入力装置は、入力ボックスからユーザ又は他のアプリケーション等が入力、選択、クリック等の動作で入力した文字列を受信することにより、又は各種の通信プロトコル(CommunicationsProtocol)に基づいて、各種のデータ伝送インタフェースを介して、他のアプリケーションからの入力ボックスにおける文字列を取得し、そのうち、前記入力ボックスは、例えばショートメッセージ編集ボックス、内容入力ボックス等である。そのうち、前記入力文字列は、例えば全ピン又は簡ピン等の方式で入力されたピンイン符号化文字(ふりがなに相当)等を含むが、これらに限られない。
ステップs2では、入力装置は、前記入力文字列の文脈情報を確定する。具体的には、ステップs2では、入力装置は、ステップs1取得されたにより取得された入力文字列に基づいて、現在入力された文字列に属する文字等を用いて、前記現在入力文字列に属する文字を一つ又は複数のシソーラスとマッチングし、前記入力文字列と関連する1種又は複数種のマッチング情報を、前記入力文字列の文脈情報として取得し、例えば、「huacao」を入力すると、まず前記入力文字列に属する文字が「花草」である可能性があると確定し、「花草」の所属シソーラスにおけるマッチング情報に基づいて、その下文情報が「茶」等である可能性があると確定し、或いは、ステップs2では、入力装置は、前記入力文字列に対応する履歴記録情報に基づいて、前記入力文字列の文脈情報を確定し、例えば、前記入力文字列の直前に入力された前の一つの入力文字列を、前記入力文字列の上文情報とすることができる。ここで、前記文脈情報は、前記入力文字列に対応する上文情報又は下文情報を含むが、これらに限られず、例えば、前記入力が「shishi」で、前回に入力された語句が「客観的」であると、前記「shishi」に対応する上文情報が「客観的」であり、また、スクリーンに一つの語句「計画」が存在し、かつ「shishi」を入力するとき、カーソルが「計画」の前に位置すれば、それに対応する下文情報が「計画」等である。
ステップS3では、入力装置は、前記入力文字列及び前記文脈情報に基づいて、前記入力文字列に対応する一つ又は複数の入力候補アイテムを確定する。具体的には、ステップS3では、入力装置は、ステップs1取得されたにより取得された入力文字列、及びステップs1により確定された文脈情報に基づいて、前記入力文字列に対応する一つ又は複数の文脈情報を直接的に一つ又は複数の入力候補アイテムとする方式、又は前記入力文字列に対応する文脈情報を処理した後に入力候補アイテムとする方式で、前記入力文字列に対応する一つ又は複数の入力候補アイテムを確定する。例えば、上例に続き、前記入力文字列が「shishi」であると、それに対応する上文情報が「客観的」、「私」、「議論」等である可能性があり、前記上文情報が「客観的」であると、前記入力文字列及び前記文脈情報をマッチングする等の方式で、入力候補アイテムが「事実」、「実時間」、「実施」等であると確定し、前記上文情報が「私」であると、入力候補アイテムを「試みる」、「実施」、「試みる」等として確定し、前記上文情報が「議論」であると、入力候補アイテムが「時事」、「事実」、「世事」等であると確定する。
ステップs4では、入力装置は、前記一つ又は複数の入力候補アイテムのうち少なくとも一つを、前記入力文字列に対応する目的アプリケーションに提供する。具体的には、ステップs4では、入力装置は、前記一つ又は複数の入力候補アイテムのうち少なくとも一つを、直接的に前記入力文字列に対応する目的アプリケーションに提供し、或いは、各種の通信プロトコル(CommunicationsProtocol)に基づいて、各種のデータ伝送インタフェースを介して、例えば改めて順序付けるか又は選別する等の方式で、前記入力文字列に対応する目的アプリケーションに提供する。そのうち、前記目的アプリケーションは、前記ステップs1に対応する入力ボックスに対応する同一のアプリケーション、又は前記ステップs1に対応する入力ボックスに関連する他のアプリケーション等を含むが、これらに限られず、例えば、直接的に前記入力候補アイテムを用いて検索を行う等である。
好ましくは、ステップS3では、入力装置は、前記入力文字列及び前記文脈情報に基づいて、前記入力文字列を含む補完文字列を確定し、そのうち、前記補完文字列が前記文脈情報に対応する文字列をさらに含み、前記補完文字列に基づいて、入力シソーラスにおいてマッチングクエリを行うことにより、前記補完文字列に対応する一つ又は複数の補完入力候補アイテムを取得し、前記文脈情報に基づいて、前記一つ又は複数の補完入力候補アイテムを選別処理することにより、前記一つ又は複数の入力候補アイテムを取得してもよい。具体的には、ステップS3では、入力装置は、前記入力文字列及び前記文脈情報に基づいて、前記入力文字列と前記文脈情報を組み合わせて、例えば入力シソーラスとマッチングする等の方式で、前記入力文字列を含む補完文字列を確定し、例えば、入力文字列が「xuxu」で、文脈情報が「形態」であると、前記補完文字列が「rusheng」であると確定し、或いは、入力文字列が「tianan」で、文脈情報が「北京」であると、前記補完文字列が「men」であると確定し、ここで、前記補完文字列は、マッチング等の方式で確定される一つ又は複数の接合されてなる複数段文字列を含むが、これらに限られない。ステップS3では、入力装置は、前記補完文字列を入力シソーラスにおいてマッチングクエリすることにより、前記補完文字列に対応する一つ又は複数の補完入力候補アイテムを取得し、前例に続き、前記補完文字列が「rusheng」である場合に、対応する補完入力候補アイテムは、例えば「如生」、「入声」、「入勝」等であり、前記補完文字列が「men」である場合に、対応する補完入力候補アイテムは、例えば「天安門」、「門」等である。又は、前記補完入力候補アイテムは、直接的に前記文脈情報を含み、例えば直接的に「形態栩栩如生」、「北京天安門」等を生成してもよい。前記文脈情報に基づいて、前記一つ又は複数の補完入力候補アイテムを選別処理し、前例に続き、文脈情報に基づいて、それぞれ入力候補アイテムが「栩栩如生」、「天安門」であると確定することにより、前記一つ又は複数の入力候補アイテムを取得し、ここで、前記補完入力候補アイテムに文脈情報を含むと、前記補完入力候補アイテムにおける文脈情報を削除した後、前記一つ又は複数の入力候補アイテムを取得し、例えば、前記補完入力候補アイテム「北京天安門」における「北京」を削除して、前記一つ又は複数の入力候補アイテム「天安門」を取得する。
好ましくは、ステップs2では、入力装置は、前記入力文字列に対応する相関テキストに対して自然言語処理を行うことにより、前記相関テキストから対応の焦点単語を前記文脈として抽出してもよく、そのうち、前記焦点単語は、前記入力文字列に対応する入力位置に近接する。具体的には、ステップs2では、入力装置は、単語分割又はセマンティック分析等の方式で、前記入力文字列に対応する相関テキストに対して自然言語処理を行ってもよく、そのうち、前記相関テキストは、前記入力文字列自身に対応するテキスト、又は前記入力文字列に対応する入力位置の前後に入力された相関テキストを含むが、これらに限られず、前記相関テキストから、自然言語処理により、対応する焦点単語を前記文脈として抽出する。例えば、前記入力文字列が「shishi」であると、それに対応する相関テキストが「上海地下鉄一期工程」であり、前記入力文字列が「上海地下鉄一期工程」の後に位置し、前記相関テキストに対して自然言語処理を行うことにより、焦点単語である「工程」を抽出するとともに、「工程」を文脈とする。さらに、従って、入力文字列が「shishi」であると、当該入力装置は、前記文脈「工程」に基づいて、入力候補アイテムが「実施」、「実時間」、「試みる」等であると確定する。
提供する方法を示すフローチャートである。具体的には、ステップsl’では、入力装置は入力文字列を取得し、ステップs2’では、入力装置は前記入力文字列の文脈情報を確定し、ステップs31’では、入力装置は、前記入力文字列に基づいて、入力シソーラスにおいてマッチングクエリを行うことにより、前記入力文字列に対応する一つ又は複数の予備入力候補アイテムを取得し、ステップs32’では、入力装置は、前記文脈情報に基づいて、前記一つ又は複数の予備入力候補アイテムを処理することにより、前記一つ又は複数の入力候補アイテムを取得し、ステップs4’では、入力装置は、前記一つ又は複数の入力候補アイテムのうち少なくとも一つを、前記入力文字列に対応する目的アプリケーションに提供する。そのうち、前記ステップsl’、ステップs2’、ステップs4’は、図4に示す対応のステップと同じ又は基本的に同じであるので、ここで再度記述せず、引用の方式でここに含まれる。
上記各ステップ間は持続的に動作し、ここで、当業者にとって、「持続的」とは、上記各ステップがそれぞれ実時間に、或いは、設定されたか又は実時間に調整された動作モード要件に応じて、入力装置が入力文字列の取得を停止するまで、入力文字列の取得、文脈情報の確定、予備入力候補アイテムの取得、入力候補アイテムの確定、入力候補アイテムの提供等を行うことをいうと理解すべきである。
ステップs31’では、入力装置は、前記入力文字列に基づいて、入力シソーラスにおいてマッチングクエリを行うことにより、前記入力文字列に対応する一つ又は複数の予備入力候補アイテムを取得する。具体的には、ステップs31’では、入力装置は、前記入力文字列を取得して、前記入力文字列を入力シソーラスにおける単語とマッチングすることにより、前記入力文字列に対応する一つ又は複数の予備入力候補アイテムを取得する。例えば、入力文字列が「shishi」であると、入力シソーラスにおいてマッチングクエリを行った後に、「実時間」、「試みる」、「実施」、「事実」、「適時」、「逝世」等の複数の予備入力候補アイテムを取得する。
ステップs32’では、入力装置は、前記文脈情報に基づいて、前記一つ又は複数の予備入力候補アイテムを処理することにより、前記一つ又は複数の入力候補アイテムを取得する。具体的には、ステップs32’では、入力装置は、前記入力文字列の文脈情報に基づいて、自然言語モデル又は単語共起データベース等に基づいて、文脈情報と予備入力候補アイテムの共起確率を確定するとともに、前記共起確率に基づいて前記予備入力候補アイテムを選別するか又は順序付けることにより、入力候補アイテムを取得する。例えば、前例に続き、文脈情報が「客観的」であると、処理された後、予備入力候補アイテムを改めて順序付けることにより、順序が「事実」、「実時間」、「試みる」、「実施」、「適時」、「逝世」等に変更される。
好ましくは、ステップs32’では、入力装置は、前記文脈情報に基づいて、単語共起データベースにおいてマッチングクエリを行うことにより、前記予備入力候補アイテムと前記文脈情報が対応する共起関連度情報を確定し、前記共起関連度情報に基づいて、前記一つ又は複数の予備入力候補アイテムを処理することにより、前記一つ又は複数の入力候補アイテムを取得してもよい。具体的には、ステップs32’では、入力装置は、前記文脈情報に基づいて、単語共起データベースにおいてマッチングクエリを行い、前記単語共起データベースにおける一つ又は複数の見出し語と前記文脈とのマッチング関係等に基づいて、前記予備入力候補アイテムと前記文脈情報が対応する共起関連度情報を確定し、例えばbull変数であれば、前記共起関連度情報が共起が存在するか否かを示し、或いは、連続的変数であれば、前記共起関連度情報が共起確率の多少を示し、ここで、前記共起関連度情報は、例えば単語共起データベース又は他の相関データベースにおける文脈と予備入力候補アイテムとの組み合わせ頻度等に基づいて、機械学習により取得することができる。前記共起関連度情報に基づいて、前記一つ又は複数の予備入力候補アイテムに対して、例えば選別又は順序付けの処理を行うことにより、前記一つ又は複数の入力候補アイテムを取得する。
さらに好ましくは、前記方法はステップs5’(図示せず)及びステップs6’(図示せず)をさらに含み、そのうち、ステップs5’では、入力装置は、一つ又は複数のテキスト情報を分析処理することにより、共起頻度が一定の閾値を満たす単語分割共起関係を取得し、ステップs6’では、入力装置は、前記単語分割共起関係に基づいて、前記単語共起データベースを確立するか又は更新する。具体的には、ステップs5’では、入力装置は、例えば各種のログ、各種の文章等を取得するとともに、取得されたテキスト情報に対してまず単語分割を行い、次に隣接単語間の共起頻度を統計する等の分析方法により、前記共起頻度が一定の閾値を超えた場合、前記隣接単語の間に一定の共起関係が存在していると判断することにより、共起頻度が一定の閾値を満たす単語分割共起関係を取得し、ステップs6’では、入力装置は、前記単語分割共起関係に基づいて、前記単語共起データベースを確立し、或いは、従来の単語共起データベースに対して更新等を行い、ここで、前記単語共起データベースは、単語分割共起関係及び単語分割共起関係の間の共起確率情報を含むが、これらに限られず、かつ、前記単語共起データベースは、従来の固定単語、例えば成語、俗語等を含むとともに、前記更新を行った後、従来のネットワークアプリケーションの高速発展により生じられた新しい単語及び記述を含むことにより、ユーザの入力効率を有効に高めることができる。
図6は、本発明の他の好ましい実施例に係る入力文字列に対応する入力候補アイテムを提供する方法を示すフローチャートである。具体的には、ステップs1”では、入力装置は入力文字列を取得し、ステップs2”では、入力装置は前記入力文字列の文脈情報を確定し、ステップs33”では、入力装置は前記入力文字列が所定の長さ閾値を超えるか否かを検出し、前記入力文字列が前記長さ閾値を超えていれば、ステップs34”では、入力装置は、前記入力文字列及び前記文脈情報に基づいて、前記入力文字列に対応する一つ又は複数の入力候補アイテムを反復確定し、ステップs4”では、入力装置は、前記一つ又は複数の入力候補アイテムのうち少なくとも一つを、前記入力文字列に対応する目的アプリケーションに提供する。そのうち、前記ステップsl”、ステップs2”、ステップs4”は、図4に示す対応のステップと同じ又は基本的に同じであるので、ここで再度記述せず、引用の方式でここに含まれる。
上記各ステップ間は持続的に動作し、ここで、当業者にとって、「持続的」とは、上記各ステップがそれぞれ実時間に、或いは、設定されたか又は実時間に調整された動作モード要件に応じて、入力装置が入力文字列の取得を停止するまで、入力文字列の取得、文脈情報の確定、長さ閾値の検出、入力候補アイテムの確定、入力候補アイテムの提供等を行うことをいうと理解すべきである。
ステップs33”では、入力装置は前記入力文字列が所定の長さ閾値を超えるか否かを検出する。具体的には、ステップs33”では、入力装置は、プリセットされたか又はユーザが自ら設置した長さ閾値に基づいて、前記入力文字列の長さを検出し、前記入力文字列の長さが所定の長さ閾値を超えるか否かを検出する。例えば、所定の文字長さ閾値がNで、前記入力文字列の長さがN+1である場合、ステップs33”では、入力装置は、前記入力文字列が所定の長さ閾値を超えたと検出する。
前記入力文字列が前記長さ閾値を超えていれば、ステップs34”では、入力装置は、前記入力文字列及び前記文脈情報に基づいて、前記入力文字列に対応する一つ又は複数の入力候補アイテムを反復確定する。具体的には、前記入力文字列が前記長さ閾値を超えていれば、ステップs34”では、入力装置は、前記入力文字列及び前記文脈情報に基づいて、例えば前記長さ閾値に基づいて、前記入力文字列に対してセグメント分け等の処理を行い、第一つの長さ閾値の入力文字列に対応する前記入力候補アイテムを確定するとともに、確定された入力候補アイテムを再度文脈情報とすることにより、次の長さ閾値の入力文字列に対応する入力候補アイテムを反復確定する等の方式で、前記入力文字列に対応する一つ又は複数の入力候補アイテムを確定する。
好ましくは、ステップs33”では、入力装置は、前記入力文字列に対応する入力シソーラス中の一つ又は複数のサンプリング入力候補アイテムを取得し、前記一つ又は複数のサンプリング入力候補アイテムのうち少なくとも一つの文字数が所定の文字数閾値を超えるか否かを検出することにより、前記入力文字列が所定の長さ閾値を超えるか否かを確定してもよい。具体的には、ステップs33”では、入力装置は、例えば前記入力文字列を直接的に前記入力シソーラスにおいてマッチングすることにより、前記全部入力文字列に対応する一つ又は複数の入力候補アイテムを取得するとともに、その中からランダムに抽出するか又は指定抽出する(例えば第一つの入力候補アイテムを選択する等の)方式で、前記入力文字列に対応する入力シソーラス中の一つ又は複数のサンプリング入力候補アイテムを取得し、前記一つ又は複数のサンプリング入力候補アイテムを検出することにより、前記サンプリング入力候補アイテムのうち少なくとも一つの文字数が所定の文字数閾値を超えていれば、前記入力文字列が所定の長さ閾値を超えるか否かを確定してもよい。
好ましくは、ステップs34”では、入力装置は、前記入力文字列が前記長さ閾値を超えた場合、前記文脈情報、及び前記入力文字列における前記文脈情報と隣接する部分入力文字列に基づいて、前記部分入力文字列に対応する一つ又は複数の部分入力候補アイテムを確定し、前記部分入力文字列、及び前記入力文字列における他の入力文字列に基づいて、前記他の入力文字列に対応する一つ又は複数の他の入力候補アイテムを確定してもよく、そのうち、前記部分入力候補アイテムは、前記他の入力文字列の文脈情報として用いられ、前記一つ又は複数の部分入力候補アイテム及び前記一つ又は複数の他の入力候補アイテムに基づいて、前記一つ又は複数の入力候補アイテムを確定する。
具体的には、前記入力文字列が前記長さ閾値を超えた場合、前記文脈情報に基づいて、例えば単語分割等の処理により、前記入力文字列に対して単語分割又はセグメント分け等を行うことにより、前記入力文字列における前記文脈情報と隣接する部分入力文字列を取得し、前記部分入力文字列と前記文脈情報を組み合わせることにより、前記部分入力文字列に対応する一つ又は複数の部分入力候補アイテムを確定し、ここで、前記確定方法は、図4における前記ステップs3における確定方法と同じ又は類似するため、ここで再度記述せず、引用の方式でここに含まれる。ステップs34”では、入力装置は、前記部分入力候補アイテムを他の入力文字列の文脈情報として、反復の方式で、前記他の入力文字列に対応する一つ又は複数の他の入力候補アイテムを確定し、反復後に例えば文字列間の関係に基づいて、前記部分入力候補アイテムと他の入力候補アイテムを接合する等の方式で、一つ又は複数の入力候補アイテムを確定する。
当業者にとって、明らかに、本発明は上述の例示的な実施例の詳細に限定されず、かつ本発明の思想又は基本的特徴から逸脱しない場合、他の具体的な形態で本発明を実現することができる。従って、いずれにしても、実施例を、限定的なものではなく、例示的なものとみなすべきであり、本発明の範囲は、上述の説明ではなく、添付される特許請求の範囲で限定されるため、特許請求の範囲の同等要件の意味及び範囲内に入るすべての変更を本発明内にカバーすることを目的とする。特許請求の範囲におけるいずれかの図面符号は、それに関する請求項を限定するものとみなされてはならない。また、明らかに、「含む」という用語は、他の手段又はステップを除外せず、単数は複数を除外しない。装置の請求項に記載の複数の手段又は装置は、一つの手段又は装置によりソフトウェア又はハードウェアで実現することができる。第一、第二等の用語は、名称を示すに過ぎないが、いずれの特定な順序も示していない。

Claims (18)

  1. a、入力文字列を取得するステップと、
    b、前記入力文字列の文脈情報を確定するステップと、
    c、前記入力文字列及び前記文脈情報に基づいて、前記入力文字列に対応する一つ又は複数の入力候補アイテムを確定するステップと、
    d、前記一つ又は複数の入力候補アイテムのうち少なくとも一つを、前記入力文字列に対応する目的アプリケーションに提供するステップと、
    を含む、入力文字列に対応する入力候補アイテムを提供する方法。
  2. 前記ステップcは、
    前記入力文字列に基づいて、入力シソーラスにおいてマッチングクエリを行うことにより、前記入力文字列に対応する一つ又は複数の予備入力候補アイテムを取得するステップと、
    cl、前記文脈情報に基づいて、前記一つ又は複数の予備入力候補アイテムを処理することにより、前記一つ又は複数の入力候補アイテムを取得するステップと、
    を含む、請求項1に記載の方法。
  3. 前記ステップclは、
    前記文脈情報に基づいて、単語共起データベースにおいてマッチングクエリを行うことにより、前記予備入力候補アイテムと前記文脈情報が対応する共起関連度情報を確定するステップと、
    前記共起関連度情報に基づいて、前記一つ又は複数の予備入力候補アイテムを処理することにより、前記一つ又は複数の入力候補アイテムを取得するステップと、
    を含む、請求項2に記載の方法。
  4. 一つ又は複数のテキスト情報を分析処理することにより、共起頻度が一定の閾値を満たす単語分割共起関係を取得するステップと、
    前記単語分割共起関係に基づいて、前記単語共起データベースを確立するか又は更新するステップと、
    をさらに含む、請求項3に記載の方法。
  5. 前記ステップcは、
    前記入力文字列及び前記文脈情報に基づいて、前記入力文字列を含むとともに、前記文脈情報に対応する文字列を含む補完文字列を確定するステップと、
    前記補完文字列に基づいて、入力シソーラスにおいてマッチングクエリを行うことにより、前記補完文字列に対応する一つ又は複数の補完入力候補アイテムを取得するステップと、
    前記文脈情報に基づいて、前記一つ又は複数の補完入力候補アイテムを選別処理することにより、前記一つ又は複数の入力候補アイテムを取得するステップと、
    を含む、請求項1に記載の方法。
  6. 前記ステップbは、
    前記入力文字列に対応する相関テキストに対して自然言語処理を行うことにより、前記相関テキストから、前記入力文字列に対応する入力位置に近接する対応の焦点単語を前記文脈として抽出するステップ、
    を含む、請求項1〜5のいずれか1項に記載の方法。
  7. 前記ステップcは、
    c2、前記入力文字列が所定の長さ閾値を超えるか否かを検出するステップと、
    c3、前記入力文字列が前記長さ閾値を超えていれば、前記入力文字列及び前記文脈情報に基づいて、前記入力文字列に対応する一つ又は複数の入力候補アイテムを反復確定するステップと、
    を含む、請求項1〜6のいずれか1項に記載の方法。
  8. 前記ステップc2は、
    前記入力文字列に対応する入力シソーラス中の一つ又は複数のサンプリング入力候補アイテムを取得するステップと、
    前記一つ又は複数のサンプリング入力候補アイテムのうち少なくとも一つの文字数が所定の文字数閾値を超えるか否かを検出することにより、前記入力文字列が所定の長さ閾値を超えるか否かを確定するステップと、
    を含む、請求項7に記載の方法。
  9. 前記ステップc3は、
    前記入力文字列が前記長さ閾値を超えた場合、前記文脈情報及び前記入力文字列における前記文脈情報と隣接する部分入力文字列に基づいて、前記部分入力文字列に対応する一つ又は複数の部分入力候補アイテムを確定するステップと、
    前記部分入力文字列及び前記入力文字列における他の入力文字列に基づいて、前記他の入力文字列に対応する一つ又は複数の他の入力候補アイテムを確定し、前記部分入力候補アイテムを前記他の入力文字列の文脈情報として用いるステップと、
    前記一つ又は複数の部分入力候補アイテム及び前記一つ又は複数の他の入力候補アイテムに基づいて、前記一つ又は複数の入力候補アイテムを確定するステップと、
    を含む、請求項7又は8に記載の方法。
  10. 入力文字列を取得する取得装置と、
    前記入力文字列の文脈情報を確定する文脈確定装置と、
    前記入力文字列及び前記文脈情報に基づいて、前記入力文字列に対応する一つ又は複数の入力候補アイテムを確定する候補アイテム確定装置と、
    前記一つ又は複数の入力候補アイテムのうち少なくとも一つを、前記入力文字列に対応する目的アプリケーションに提供する提供装置と、
    を含む、入力文字列に対応する入力候補アイテムを提供する入力装置。
  11. 前記候補アイテム確定装置は、
    前記入力文字列に基づいて、入力シソーラスにおいてマッチングクエリを行うことにより、前記入力文字列に対応する一つ又は複数の予備入力候補アイテムを取得するマッチング手段と、
    前記文脈情報に基づいて、前記一つ又は複数の予備入力候補アイテムを処理することにより、前記一つ又は複数の入力候補アイテムを取得する処理手段と、
    を含む、請求項10に記載の入力装置。
  12. 前記処理手段は、
    前記文脈情報に基づいて、単語共起データベースにおいてマッチングクエリを行うことにより、前記予備入力候補アイテムと前記文脈情報が対応する共起関連度情報を確定し、
    前記共起関連度情報に基づいて、前記一つ又は複数の予備入力候補アイテムを処理することにより、前記一つ又は複数の入力候補アイテムを取得する、
    請求項11に記載の入力装置。
  13. 一つ又は複数のテキスト情報を分析処理することにより、共起頻度が一定の閾値を満たす単語分割共起関係を取得するテキスト処理装置と、
    前記単語分割共起関係に基づいて、前記単語共起データベースを確立するか又は更新する確立装置と、
    をさらに含む、請求項12に記載の入力装置。
  14. 前記候補アイテム確定装置は、
    前記入力文字列及び前記文脈情報に基づいて、前記入力文字列を含むとともに、前記文脈情報に対応する文字列を含む補完文字列を確定し、
    前記補完文字列に基づいて、入力シソーラスにおいてマッチングクエリを行うことにより、前記補完文字列に対応する一つ又は複数の補完入力候補アイテムを取得し、
    前記文脈情報に基づいて、前記一つ又は複数の補完入力候補アイテムを選別処理することにより、前記一つ又は複数の入力候補アイテムを取得する、
    請求項10に記載の入力装置。
  15. 前記文脈確定装置は、
    前記入力文字列に対応する相関テキストに対して自然言語処理を行うことにより、前記相関テキストから、前記入力文字列に対応する入力位置に近接する対応の焦点単語を前記文脈として抽出する、
    請求項10〜14のいずれか1項に記載の入力装置。
  16. 前記候補アイテム確定装置は、
    前記入力文字列が所定の長さ閾値を超えるか否かを検出する検出手段と、
    前記入力文字列が前記長さ閾値を超えていれば、前記入力文字列及び前記文脈情報に基づいて、反復前記入力文字列に対応する一つ又は複数の入力候補アイテムを確定する反復手段と、
    を含む、請求項10〜15のいずれか1項に記載の入力装置。
  17. 前記検出手段は、
    前記入力文字列に対応する入力シソーラス中の一つ又は複数のサンプリング入力候補アイテムを取得し、
    前記一つ又は複数のサンプリング入力候補アイテムのうち少なくとも一つの文字数が所定の文字数閾値を超えるか否かを検出することにより、前記入力文字列が所定の長さ閾値を超えるか否かを確定する、
    請求項16に記載の入力装置。
  18. 前記反復手段は、
    前記入力文字列が前記長さ閾値を超えた場合、前記文脈情報及び前記入力文字列における前記文脈情報と隣接する部分入力文字列に基づいて、前記部分入力文字列に対応する一つ又は複数の部分入力候補アイテムを確定し、
    前記部分入力文字列及び前記入力文字列における他の入力文字列に基づいて、前記他の入力文字列に対応する一つ又は複数の他の入力候補アイテムを確定し、前記部分入力候補アイテムを前記他の入力文字列の文脈情報として用い、
    前記一つ又は複数の部分入力候補アイテム及び前記一つ又は複数の他の入力候補アイテムに基づいて、前記一つ又は複数の入力候補アイテムを確定する、
    請求項16又は17に記載の入力装置。
JP2015549962A 2012-12-31 2013-11-12 入力文字列に対応する入力候補アイテムを提供する方法及び装置 Active JP6114403B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201210592774.9 2012-12-31
CN201210592774.9A CN103076892B (zh) 2012-12-31 2012-12-31 一种用于提供输入字符串所对应的输入候选项的方法与设备
PCT/CN2013/086968 WO2014101577A1 (zh) 2012-12-31 2013-11-12 一种用于提供输入字符串所对应的输入候选项的方法与设备

Publications (3)

Publication Number Publication Date
JP2016508264A true JP2016508264A (ja) 2016-03-17
JP2016508264A5 JP2016508264A5 (ja) 2017-01-05
JP6114403B2 JP6114403B2 (ja) 2017-04-12

Family

ID=48153448

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015549962A Active JP6114403B2 (ja) 2012-12-31 2013-11-12 入力文字列に対応する入力候補アイテムを提供する方法及び装置

Country Status (5)

Country Link
US (1) US20150293972A1 (ja)
EP (1) EP2940557B1 (ja)
JP (1) JP6114403B2 (ja)
CN (1) CN103076892B (ja)
WO (1) WO2014101577A1 (ja)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103076892B (zh) * 2012-12-31 2016-09-28 百度在线网络技术(北京)有限公司 一种用于提供输入字符串所对应的输入候选项的方法与设备
CN103353824B (zh) * 2013-06-17 2016-08-17 百度在线网络技术(北京)有限公司 语音输入字符串的方法、装置和终端设备
CN103440299B (zh) * 2013-08-20 2016-12-28 陈喜 一种基于焦点上下文联想词的信息快速输入方法
TW201514726A (zh) * 2013-10-14 2015-04-16 Chi-Lin Hong 一種串聯式文字輸入裝置和方法
CN104111738A (zh) * 2014-06-06 2014-10-22 珠海市魅族科技有限公司 一种字符关联方法及终端
CN105302332A (zh) * 2014-07-25 2016-02-03 中国移动通信集团公司 一种拼音输入法及其实现装置
TWI518616B (zh) * 2014-09-24 2016-01-21 國立清華大學 穿搭評選方法與電子裝置
CN104808808A (zh) * 2015-03-23 2015-07-29 联想(北京)有限公司 一种信息处理方法及电子设备
CN104766077B (zh) * 2015-04-03 2017-04-12 北京奇虎科技有限公司 一种识别图片中的字符的方法和装置
CN104809192B (zh) * 2015-04-22 2019-06-18 北京奇虎科技有限公司 提取输入法候选项的方法以及装置
CN107070779B (zh) * 2015-05-29 2021-09-03 北京搜狗科技发展有限公司 一种信息处理方法和装置
CN105404401A (zh) * 2015-11-23 2016-03-16 小米科技有限责任公司 输入处理方法、装置及设备
CN105653061B (zh) * 2015-12-29 2020-03-31 北京京东尚科信息技术有限公司 针对拼音输入法的词条检索及错词检测的方法和系统
CN105653064A (zh) * 2016-01-07 2016-06-08 珠海市魅族科技有限公司 一种输入方法及装置
CN105511642A (zh) * 2016-01-07 2016-04-20 珠海市魅族科技有限公司 一种输入方法及装置
WO2018014341A1 (zh) * 2016-07-22 2018-01-25 华为技术有限公司 展示候选项的方法和终端设备
CN107765883A (zh) * 2016-08-22 2018-03-06 富士通株式会社 输入法的候选词语的排序方法和排序设备
CN106484135B (zh) * 2016-09-23 2019-03-19 百度在线网络技术(北京)有限公司 一种用于提供输入候选项的方法与装置
CN106527752B (zh) * 2016-09-23 2019-03-19 百度在线网络技术(北京)有限公司 一种用于提供输入候选项的方法与装置
US11151130B2 (en) * 2017-02-04 2021-10-19 Tata Consultancy Services Limited Systems and methods for assessing quality of input text using recurrent neural networks
CN108509058B (zh) * 2017-02-28 2022-08-16 微软技术许可有限责任公司 输入方法与相关设备
CN108536653B (zh) * 2017-03-03 2022-09-30 北京搜狗科技发展有限公司 一种输入方法、装置和用于输入的装置
US10493798B2 (en) 2017-03-24 2019-12-03 Cnh Industrial America Llc Air strut suspension system for a self-propelled high ground clearance product applicator
CN109917927B (zh) * 2017-12-13 2022-07-08 北京搜狗科技发展有限公司 一种候选项确定方法和装置
US11132622B2 (en) * 2017-12-27 2021-09-28 International Business Machines Corporation Autonomous system for hypotheses generation
CN109976548B (zh) * 2017-12-28 2022-07-19 北京搜狗科技发展有限公司 一种输入方法及输入装置
CN109164921B (zh) * 2018-07-09 2023-04-07 北京左医科技有限公司 聊天框动态显示输入建议的控制方法及装置
CN110858099B (zh) * 2018-08-20 2024-04-12 北京搜狗科技发展有限公司 候选词生成方法及装置
CN109634436B (zh) * 2018-10-25 2023-11-10 平安科技(深圳)有限公司 输入法的联想方法、装置、设备及可读存储介质
CN111832310B (zh) * 2019-04-23 2024-04-16 北京嘀嘀无限科技发展有限公司 一种文本处理方法及装置
CN112000877A (zh) * 2020-07-15 2020-11-27 北京搜狗科技发展有限公司 一种数据处理方法、装置和介质
CN117037184A (zh) * 2023-10-10 2023-11-10 深圳牛图科技有限公司 一种基于云匹配的ocr模糊识别系统及方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010518534A (ja) * 2007-02-12 2010-05-27 グーグル・インコーポレーテッド 文脈上の入力方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7149550B2 (en) * 2001-11-27 2006-12-12 Nokia Corporation Communication terminal having a text editor application with a word completion feature
US9606634B2 (en) * 2005-05-18 2017-03-28 Nokia Technologies Oy Device incorporating improved text input mechanism
JP4547366B2 (ja) * 2006-11-09 2010-09-22 株式会社ソニー・コンピュータエンタテインメント 文字入力装置、その制御方法、プログラム及び情報記憶媒体
US7809719B2 (en) * 2007-02-08 2010-10-05 Microsoft Corporation Predicting textual candidates
CN100458795C (zh) * 2007-02-13 2009-02-04 北京搜狗科技发展有限公司 一种智能组词输入的方法和一种输入法系统及其更新方法
CN101266520B (zh) * 2008-04-18 2013-03-27 上海触乐信息科技有限公司 一种可实现灵活键盘布局的系统
ATE501478T1 (de) * 2008-06-11 2011-03-15 Exb Asset Man Gmbh Vorrichtung und verfahren mit verbessertem texteingabemechanismus
CN102253929A (zh) * 2011-06-03 2011-11-23 北京搜狗科技发展有限公司 一种提示用户输入字符的方法和装置
US9026429B2 (en) * 2012-12-05 2015-05-05 Facebook, Inc. Systems and methods for character string auto-suggestion based on degree of difficulty
CN103076892B (zh) * 2012-12-31 2016-09-28 百度在线网络技术(北京)有限公司 一种用于提供输入字符串所对应的输入候选项的方法与设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010518534A (ja) * 2007-02-12 2010-05-27 グーグル・インコーポレーテッド 文脈上の入力方法

Also Published As

Publication number Publication date
EP2940557A1 (en) 2015-11-04
JP6114403B2 (ja) 2017-04-12
CN103076892A (zh) 2013-05-01
EP2940557A4 (en) 2016-11-02
EP2940557B1 (en) 2022-11-02
US20150293972A1 (en) 2015-10-15
CN103076892B (zh) 2016-09-28
WO2014101577A1 (zh) 2014-07-03

Similar Documents

Publication Publication Date Title
JP6114403B2 (ja) 入力文字列に対応する入力候補アイテムを提供する方法及び装置
US10678824B2 (en) Method of searching for relevant node, and computer therefor and computer program
AU2017408800B2 (en) Method and system of mining information, electronic device and readable storable medium
CN105094368B (zh) 一种对输入法候选项进行调频排序的控制方法及控制装置
US8542195B2 (en) Method for optimization of soft keyboards for multiple languages
CN110457672B (zh) 关键词确定方法、装置、电子设备及存储介质
TW202020691A (zh) 特徵詞的確定方法、裝置和伺服器
CN102722483A (zh) 用于确定输入法的候选项排序的方法、装置和设备
KR102569760B1 (ko) 온라인 게이밍을 위한 사용자 입력 텍스트의 언어 감지
CN112269862B (zh) 文本角色标注方法、装置、电子设备和存储介质
CN108920649B (zh) 一种信息推荐方法、装置、设备和介质
JP7397903B2 (ja) インテリジェント対話方法、装置、電子機器及び記憶媒体
CN110738997B (zh) 一种信息修正方法、装置、电子设备及存储介质
US20180232461A1 (en) Search processing method and device
CN104133815B (zh) 输入和搜索的方法及系统
WO2020026366A1 (ja) 特許評価判定方法、特許評価判定装置、および特許評価判定プログラム
CN112269475A (zh) 文字显示方法、装置和电子设备
CN101308512B (zh) 一种基于网页的互译翻译对抽取方法及装置
WO2016041428A1 (zh) 一种英文的输入方法和装置
EP3992814A2 (en) Method and apparatus for generating user interest profile, electronic device and storage medium
CN112115313A (zh) 正则表达式的生成、数据提取方法、装置、设备及介质
CN111984774A (zh) 搜索方法、装置、设备以及存储介质
CN111966781A (zh) 数据查询的交互方法及装置、电子设备和存储介质
CN104076945B (zh) 用于在终端中显示输入键盘的装置和方法
JP7197542B2 (ja) テキストワードセグメンテーションの方法、装置、デバイスおよび媒体

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161111

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161111

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20161227

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20170206

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170316

R150 Certificate of patent or registration of utility model

Ref document number: 6114403

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250