JP2009193584A - ワードセットに関係するワードの決定 - Google Patents
ワードセットに関係するワードの決定 Download PDFInfo
- Publication number
- JP2009193584A JP2009193584A JP2009031981A JP2009031981A JP2009193584A JP 2009193584 A JP2009193584 A JP 2009193584A JP 2009031981 A JP2009031981 A JP 2009031981A JP 2009031981 A JP2009031981 A JP 2009031981A JP 2009193584 A JP2009193584 A JP 2009193584A
- Authority
- JP
- Japan
- Prior art keywords
- term
- terms
- similarity
- search
- provisional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3322—Query formulation using system suggestions
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】一実施形態では、グラフィカルユーザインターフェイスのユーザエントリーウィンドウを表示する。最初の検索を開始するためにユーザエントリーウィンドウに入力された検索タームを受け取る。検索タームに基づき、文書のコーパスから最初の1つ以上の検索結果を決定する。グラフィカルユーザインターフェイスのカレント検索タームウィンドウに検索タームを表示する。グラフィカルユーザインターフェイスの検索結果ウィンドウに第1の検索結果を表示する。グラフィカルユーザインターフェイスの検索示唆ウィンドウに第1の検索示唆を表示する。
【選択図】図1
Description
[関連出願]
本願は、ボー・アドラーらにより2008年2月13日に出願された米国仮出願第61/028,233号、発明の名称「研究検索方法及びアーキテクチャ」、代理人管理番号第073338.0579号の米国特許法第119条(e)項の利益を主張するものである。
1. ドメイン内の文書の収集実施形態では、文書はタームの集まり(collection of terms)である。文書とは、例えば新約聖書などの可読テキストである。文書は、必ずしも物語形式のテキストでなくてもよく、例えば画像コンテンツを個別かつ集合的に記述する一組のユーザ入力タグであってもよい。文書の集まりを「ドメイン・コーパス(domain corpus)」と呼ぶ。
1. 基本類似性
a) タームAとタームBとの間の基本類似性を、そのタームAまたはBのいずれかを含むコンテキスト数に対する、タームA及びBを両方とも含むコンテキスト数の比として定義する。
A(A,B) = |AB|/|A or B|
b) タームAとタームBとの間の基本類似性(A)を、タームAまたはBのいずれかを含むコンテキスト数の大きい方に対する、タームA及びBを両方とも含む共起コンテキスト数の比として定義してもよい。
A(A,B) = |AB|/max(|A|,|B|)
2. 有向類似性
タームAとタームBとの間の有向類似性(DAff)を、コンテキスト中にタームAが出現することを条件として、タームBが出現する条件付き確率として定義してもよい。
DAff(A, B) = |AB| / |A|
すなわち、有向類似性は、タームAを含むコンテキストに対する、タームAとBを両方とも含む共起コンテキストの数である。一般的にDAff(A,B)とDAff(B,A)とは異なる。
3. 差分有向類似性
タームAとタームBとの間の差分有向類似性(DiffDAff)は、タームAとBとの間の有向類似性から、コーパスにおけるタームBの一般性(common-ness)を示すファクタを引いたものとして定義してもよい。コーパスにおけるタームBの一般性は、そのコーパス中の他のタームに対するタームBの基本類似性または有向類似性の統計値である。一実施形態では、コーパスにおけるタームBの一般性(common-ness)は、タームBの平均類似性(AA)である。その場合、差分有向類似性の定義は次のようになる:
DiffDAff(A,B) = DA(A,B) - AA(B)
タームBの平均類似性(AA)すなわち平均有向類似性は次式で定義される:
AA(B) = AVERAGE_X DAff(x, B)
すなわち、平均類似性は共起コンテキストにおける他のタームに対するタームBの有向類似性の平均である。
P(Wi) = Satisf(BDD(Wi))
したがって、
P(Wi & Wj) = Satisf(BDD(Wi) AND BDD(Wj))
P(Wi + Wj) = Satisf(BDD(Wi) OR BDD(Wj))
オントロジ66は言語のワードとそのワード間の関係を表すものである。一実施形態では、オントロジ66はワード間の類似性(affinities)を表す。図示した実施例では、オントロジ66は類似性マトリックスと類似性グラフを含む。類似性マトリックスの例を図3乃至図5を参照して説明する。類似性グラフの例を図6を参照して説明する。クラスタ67は互いに関係するワードのクラスタを記録している。クラスタは図7を参照してより詳細に説明する。
Affinity (wi, wj) = P(Wi & Wj) / P(Wi + Wj)
図3は、基本類似性を記録した類似性マトリックス110の一例を示す図である。図示した例では、類似性マトリックス110はワードw1,...,w5のペアごとの類似性を記録している。類似性マトリックス110によると、ワードw0とw1の間の類似性は0.003であり、ワードw0とw2の間の類似性は0.005であり、以下同様である。
DAffinity(wi, wj) = P(Wi & Wj) / P(Wi)
DAffinity(wi,wj)はDAffinity(wj,wi)と同じではない。ワードwiとwjの間の有向類似性DAffinity(wi,wj)が高いということは、ページ50がワードwjを含むときにそのページ50がワードwiを含む確率が高いということを示す。一例では、ページ[1 2 3 4 5 6]がワードwiを含み、ページ[4 2]がワードwjを含む。ワードwjを含むページがワードwiも含むということは、ワードwjの観点からは、ワードwiの重要性が高いということである。ワードwiを含むページの1/3のみがワードwjを含むということは、ワードwiの観点からは、ワードwjの重要性が低いということである。
図5は、平均類似性を記録した類似性マトリックス140の一例を示す図である。行142はワード1乃至ワード50,000の基本類似性を記録している。行144はワード1乃至ワード50,000の平均類似性を記録している。
DiffAff(wi, wj) = DAffinity(wi, wj) - AveAff(wj)
差分類似性は、ページ50にワードwjが出現する一般的な傾向によるバイアスを除去したものである。場合によっては、差分類似性は、ページがワードwjを含むときにそのページがワードwiを含む確率をより正確に示すものである。
差分類似性は様々な応用ができる。一例では、人の名前の間の差分類似性を用いて社会的ネットワークを研究できる。他の例では、言語要素間の差分類似性を用いて自然言語処理を研究できる。他の例では、製品間の差分類似性を用いてマーケティングを研究できる。
Afffor(wc, wx) > Thcf
及び、シードワードwqとの後方類似性規準(a backward affinity with the seed word wq criterion):
Affback(wq, wc) > Thcb
ここで、Thcfは候補ワードの前方閾値を表し、Thcbは後方ワードの後方閾値を表す。候補ワード{wc}の順序付き集合の最初のワードをクラスタSに加える。加えたワードの数はパラメータSizecで与えられる。 閾値ThcfとThcbは、最小値と最大値の間にある任意の適切な値を有する浮動小数点パラメータである。例としては、ThcfとThcbの適切な値は実際の類似性の序列リスト(rank-ordered list)から決定される。例えば、リストの200番目の値を使用する。パラメータSizecは任意の適切な値を有する整数パラメータである。適切な値の例として、デフォルト値を1,2,3または4にしてもよい。実施形態では、上記のパラメータは繰り返しによって変化してもよい。
ある実施形態では、深さエンジン230は文書の類似性(affinity)によりその文書の深さを計算する。文書間の類似性はその文書間の関係を示す。実施形態では、ワードの平均類似性がそのワードの深さを示すのと同様に、文書の平均類似性はその文書の深さを示す。文書の類似性は任意の適切な方法で定義することができる。一例では、共通ワード数P(D1&D2)は文書D1とD2の両方にあるワードの数を示し、個別ワード数P(D1+D2)は文書D1またはD2のいずれかにあるワードの数を示す。文書D1とD2の間の文書類似性DocAffは次式で定義できる:
DocAff (D1, D2) = P(D1 & D2) / P(D1 + D2)
深さエンジン230は、平均ワード類似性の計算と同様に平均文書類似性を計算する。平均類似性が低い文書は深いものであると考えられ、平均類似性が高い文書は浅いものであると考えられる。
他の実施形態では、タギングモジュール35は文書のパラグラフを分析してタグを付与する。上記の実施形態では、タギングモジュール35は文書のパラグラフのタグ候補を特定する。タギングモジュール35はタグ候補の、その文書の他のタグ候補との関係性を決定して、その関係性に応じてその文書のタグを選択する。
k1:一ワードが示唆できる候補ワード数の上限;
k2:平均差分類似性閾値;
k3:繰り返しごとの結果数の上限
k4:繰り返し数の上限;
k5:返される結果数の上限。
(1)画像に関連し、ドメイン辞書に属するタームの、平均類似性によるソーティング。上からk個(例えば、上から3個)までのタームを選択する。
(2)画像に関連し、最新の検索示唆に表れるタームの、平均類似性によるソーティング。上からk個(例えば、上から3個)までのタームを選択する。
(付記1) クエリの最初のタームセットを受け取るよう構成されたインターフェイスと、
方法を実行するように構成されたプロセッサとを有する装置であって、
前記方法は、
候補タームセットを初期化する段階と、
次の段階、すなわち
候補タームのセットの各候補タームについて、それとの差分類似性が高い所定数の暫定タームを取得する段階;
2つ以上の候補タームから暫定タームを取得した場合、各暫定タームとそれに関連する高い差分類似性とを暫定タームのセットに入れる段階であって、暫定タームの差分類似性は2つ以上の候補タームに対する差分類似性に関係する段階;
暫定タームセットの各暫定タームの平均差分類似性を計算する段階であって、平均差分類似性は各暫定タームから最初のタームセットのすべてのタームへの差分類似性の平均を表す段階;
平均差分類似性が所定閾値を満たさない1つ以上のタームを暫定タームセットから削除する段階;
差分類似性が高い暫定タームセットの1つ以上のタームを候補タームセットに入れる段階;
を所定回数繰り返す段階と、
候補タームセットの1つ以上のタームを選択する段階と、
選択した1つ以上のタームを返す段階とを含む
装置。
(付記2) 前記プロセッサは、
候補タームセットの各タームの平均類似性を決定し、
平均類似性が高い1つ以上のタームを選択することにより、
候補セットの1つ以上のタームを選択するように構成された、付記1に記載の装置。
(付記3) 前記プロセッサは、
1つ以上のタームの各タームの第2の平均差分類似性を決定し、前記第2の平均差分類似性は各タームから候補タームセットのすべてのタームへの差分類似性の平均を表し、
第2の平均差分類似性が高い1つ以上のタームを選択することにより、
候補セットの1つ以上のタームを選択するように構成された、付記1に記載の装置。
(付記4) 前記プロセッサは、最初のタームセットを含むように候補タームセットを初期化するように構成された、付記1に記載の装置。
(付記5) 前記プロセッサは、
複数のノードと、重みを有する複数の有向エッジとを含む重みつき有向グラフを受け取り、ノードはタームに対応し、有向エッジの重みは第1のタームから第2のタームへの有向類似性に対応し、ノードに入るエッジの重みの平均はそのノードの平均類似性に対応し、
前記重みつき有向グラフに前記方法を実行する、
ように構成された、付記1に記載の装置。
(付記6) 前記方法を実行するように構成された検索エンジンを有する、付記1に記載の装置。
(付記7) クエリの最初のタームセットを受け取る段階と、
候補タームセットを初期化する段階と、
候補タームのセットの各候補タームについて、それとの差分類似性が高い所定数の暫定タームを取得する段階;
2つ以上の候補タームから暫定タームを取得した場合、各暫定タームとそれに関連する高い差分類似性とを暫定タームのセットに入れる段階であって、暫定タームの差分類似性は2つ以上の候補タームに対する差分類似性に関係する段階;
暫定タームセットの各暫定タームの平均差分類似性を計算する段階であって、平均差分類似性は各暫定タームから最初のタームセットのすべてのタームへの差分類似性の平均を表す段階;
平均差分類似性が所定閾値を満たさない1つ以上のタームを暫定タームセットから削除する段階;
差分類似性が高い暫定タームセットの1つ以上のタームを候補タームセットに入れる段階;
を所定回数繰り返す段階と、
候補タームセットの1つ以上のタームを選択する段階と、
選択した1つ以上のタームを返す段階と
を含む方法。
(付記8) 候補タームセットの1つ以上のタームを選択する段階は、
候補タームセットの各タームの平均類似性を決定する段階と、
平均類似性が高い1つ以上のタームを選択する段階と
をさらに含む、付記7に記載の方法。
(付記9) 候補タームセットの1つ以上のタームを選択する段階は、
1つ以上のタームの各タームの第2の平均差分類似性を決定する段階であって、前記第2の平均差分類似性は各タームから候補タームセットのすべてのタームへの差分類似性の平均を表す段階と、
第2の平均差分類似性が高い1つ以上のタームを選択する段階と
をさらに含む、付記7に記載の方法。
(付記10) 前記複数の候補タームを初期化する段階は、
最初のタームセットを有するように前記候補タームセットを初期化する段階
をさらに含む、付記7に記載の方法。
(付記11) 複数のノードと、重みを有する複数の有向エッジとを含む重みつき有向グラフを受け取る段階であって、ノードはタームに対応し、有向エッジの重みは第1のタームから第2のタームへの有向類似性に対応し、ノードに入るエッジの重みの平均はそのノードの平均類似性に対応する段階と、
前記重みつき有向グラフに前記方法を実行する段階と
をさらに含む、付記7に記載の方法。
(付記12) 検索エンジンにより実行される、付記7に記載の方法。
(付記13) タームセットを記憶するように構成された有体のコンピュータ読み取り可能媒体と、
プロセッサであって、
文書のタームセットの各タームに対して、TF−IDF値を決定し、
TF−IDF値によりタームをソートして、ソート済みリストを生成し、TF−IDF値が一番高い第1のタームがソート済みリストの一番上になり、TF−IDF値が一番低い第2のタームがソート済みリストの一番下になり、
ソート済みリストの連続するタームのそれぞれについて、そのTF−IDF値の差を計算し、複数の差を求め、
差の標準偏差を計算し、
標準偏差に基づきソート済みリストから1つ以上のタームを削除し、
残ったタームを出力するプロセッサと
を有する装置。
(付記14) 前記プロセッサは、
ソート済みリストから百分率閾値より下のタームを削除する、
付記13に記載の装置。
(付記15) 前記プロセッサは、1回以上繰り返して、
高いTF−IDF値と低いTF−IDF値との間差であるTF−IDF値間の差が標準偏差閾値より大きくなるまで、ソート済みリストを下から上へスキャンし、
高いTF−IDF値を次のTF−IDF閾値として指定し、
TF−IDF値が前記次のTF−IDF閾値を満たさない1つ以上のタームをソート済みリストから削除することにより、次のTF−IDF閾値を決定して、標準偏差に基づきソート済みリストから1つ以上のタームを削除するように構成された、付記13に記載の装置。
(付記16) 前記プロセッサは、
ソート済みリスト中に必要最低数のタームを残しつつ、TF−IDF値がTF−IDF閾値を満たさない1つ以上のタームをソート済みリストから削除する、
付記13に記載の装置。
(付記17) 前記プロセッサは、
タームセットから出現頻度が高くない1つ以上のタームを削除するように構成された、
付記13に記載の装置。
(付記18) 前記出現頻度が高くない1つ以上のタームは、文書中に所定回数未満しか出現しない1つ以上のタームである、付記17に記載の装置。
(付記19) 前記出現頻度が低い1つ以上のタームは、コーパスにわたるタームの頻度分布を用いて特定される、付記17に記載の装置。
(付記20) 前記プロセッサは、複数の文書を含むコーパスによりTF−IDF値を計算することにより、タームセットの各タームに対して、TF−IDF値を決定するように構成された、
付記13に記載の装置。
(付記21) 文書のタームセットの各タームに対して、TF−IDF値を決定する段階と、
TF−IDF値によりタームをソートして、ソート済みリストを生成する段階であって、TF−IDF値が一番高い第1のタームがソート済みリストの一番上になり、TF−IDF値が一番低い第2のタームがソート済みリストの一番下になる段階と、
ソート済みリストの連続するタームのそれぞれについて、そのTF−IDF値の差を計算し、複数の差を求める段階と、
差の標準偏差を計算する段階と、
標準偏差に基づきソート済みリストから1つ以上のタームを削除する段階と、
残ったタームを出力する段階と
を含む方法。
(付記22) ソート済みリストから百分率閾値より下のタームを削除する段階をさらに含む、
付記21に記載の方法。
(付記23) 標準偏差に基づきソート済みリストから1つ以上のタームを削除する段階は、
高いTF−IDF値と低いTF−IDF値との間差であるTF−IDF値間の差が標準偏差閾値より大きくなるまで、ソート済みリストを下から上へスキャンする段階と、
高いTF−IDF値を次のTF−IDF閾値として指定する段階と、
TF−IDF値が前記次のTF−IDF閾値を満たさない1つ以上のタームをソート済みリストから削除する段階とを1回以上繰り返して、次のTF−IDF閾値を決定する段階をさらに含む、付記21に記載の方法。
(付記24) ソート済みリスト中に必要最低数のタームを残しつつ、TF−IDF値がTF−IDF閾値を満たさない1つ以上のタームをソート済みリストから削除する段階をさらに含む、
付記21に記載の方法。
(付記25) タームセットから出現頻度が高くない1つ以上のタームを削除する段階をさらに含む、付記21に記載の方法。
(付記26) 前記出現頻度が高くない1つ以上のタームは、文書中に所定回数未満しか出現しない1つ以上のタームである、付記25に記載の方法。
(付記27) 前記出現頻度が低い1つ以上のタームは、コーパスにわたるタームの頻度分布を用いて特定される、付記25に記載の方法。
(付記28) 複数の文書を含むコーパスによりTF−IDF値を計算することにより、タームセットの各タームに対して、TF−IDF値を決定する段階をさらに含む、付記21に記載の方法。
(付記29) 文書コーパスを記憶するように構成された有体のコンピュータ読み取り可能媒体と、
プロセッサであって、
グラフィカルユーザインターフェイスのユーザエントリーウィンドウを表示し、
前記ユーザエントリーウィンドウに入力された複数の検索タームを受け取り第1の検索を開始し、
前記検索タームに基づき前記コーパスから1つ以上の第1の検索結果を決定し、
グラフィカルユーザインターフェイスのカレント検索タームウィンドウに検索タームを表示し、
グラフィカルユーザインターフェイスの検索結果ウィンドウに1つ以上の第1の検索結果を表示し、
グラフィカルユーザインターフェイスの検索示唆ウィンドウに1つ以上の第1の検索示唆を表示するように構成されたプロセッサとを有する装置。
(付記30) 前記プロセッサは、
削除する検索タームのクリックによる選択を受け取り、
第2の検索のために、選択された検索タームを前記複数の検索タームから削除する、
付記29に記載の装置。
(付記31) 前記プロセッサは、
検索示唆のクリックにより、加える検索示唆の選択を受け取り、
第3の検索のために、選択された検索示唆を前記複数の検索タームに加える、
付記29に記載の装置。
(付記32) 前記プロセッサは、
検索結果のクリックによる選択を受け取り、
選択された検索結果に類似した1つ以上の検索結果を返し、
選択された検索結果に関係する1つ以上の追加の検索タームを特定し、
前記1つ以上の追加の検索タームを第1の検索の検索タームに加え、次の検索を開始し、
次の検索の1つ以上の検索結果であって選択された検索結果と類似した検索結果を返す、
付記29に記載の装置。
(付記33) 前記プロセッサは、
検索結果の選択を受け取り、
選択された検索結果に関係し、関連するドメイン辞書に属する複数のタームを特定し、
平均類似性によりタームをソートし、
平均類似性が高い所定数のタームを選択し、
選択されたタームを第1の検索の検索タームに加え次の検索を開始する、
付記29に記載の装置。
(付記34) 前記プロセッサは、
検索結果の選択を受け取り、
選択された検索結果に関係し、最新の検索示唆である複数のタームを特定し、
平均類似性によりタームをソートし、
平均類似性が高い所定数のタームを選択し、
選択されたタームを第1の検索の検索タームに加え次の検索を開始する、
付記29に記載の装置。
(付記35) 前記プロセッサは、
タギングモードを開始する検索結果のクリックによる選択を受け取り、
タギングモードに入る、
付記29に記載の装置。
(付記36) 前記プロセッサは、
検索結果に対して、示唆された複数のタグを生成し、
検索示唆ウィンドウに示唆されたタグを表示し、
示唆されたタグのクリックによる選択を受け取り、
示唆されたタグで検索結果をタグする、
付記29に記載の装置。
(付記37) 前記プロセッサは、
示唆されたタグのクリックによる選択を受け取り、
示唆されたタグを検索タームに加え、次の検索を開始する、
付記29に記載の装置。
(付記38) 前記プロセッサは、
検索結果のクリックによる選択を受け取り、
選択された検索結果を検索タームに加え、次の検索を開始する、
次の検索の1つ以上の検索結果を返す、
付記29に記載の装置。
(付記39) 検索結果は画像またはビデオを含む、
付記29に記載の装置。
(付記40) グラフィカルユーザインターフェイスのユーザエントリーウィンドウを表示する段階と、
前記ユーザエントリーウィンドウに入力された複数の検索タームを受け取り第1の検索を開始する段階と、
前記検索タームに基づき文書のコーパスから1つ以上の第1の検索結果を決定する段階と、
グラフィカルユーザインターフェイスのカレント検索タームウィンドウに検索タームを表示する段階と、
グラフィカルユーザインターフェイスの検索結果ウィンドウに1つ以上の第1の検索結果を表示する段階と、
グラフィカルユーザインターフェイスの検索示唆ウィンドウに1つ以上の第1の検索示唆を表示する段階とを含む方法。
(付記41)
削除する検索タームのクリックによる選択を受け取る段階と、
第2の検索のために、選択された検索タームを前記複数の検索タームから削除する段階とを含む、付記40に記載の方法。
(付記42)
検索示唆のクリックにより、加える検索示唆の選択を受け取る段階と、
第3の検索のために、選択された検索示唆を前記複数の検索タームに加える段階とを含む、
付記40に記載の方法。
(付記43)
検索結果のクリックによる選択を受け取る段階と、
選択された検索結果に類似した1つ以上の検索結果を返す段階と、
選択された検索結果に関係する1つ以上の追加の検索タームを特定する段階と、
前記1つ以上の追加の検索タームを第1の検索の検索タームに加え、次の検索を開始する段階と、
次の検索の1つ以上の検索結果であって選択された検索結果と類似した検索結果を返す段階とをさらに含む、付記40に記載の方法。
(付記44)
検索結果の選択を受け取る段階と、
選択された検索結果に関係し、関連するドメイン辞書に属する複数のタームを特定する段階と、
平均類似性によりタームをソートする段階と、
平均類似性が高い所定数のタームを選択する段階と、
選択されたタームを第1の検索の検索タームに加え次の検索を開始する段階と
をさらに含む、付記40に記載の方法。
(付記45)
検索結果の選択を受け取る段階と、
選択された検索結果に関係し、最新の検索示唆である複数のタームを特定する段階と、
平均類似性によりタームをソートする段階と、
平均類似性が高い所定数のタームを選択する段階と、
選択されたタームを第1の検索の検索タームに加え次の検索を開始する段階と
付記40に記載の方法。
(付記46)
タギングモードを開始する検索結果のクリックによる選択を受け取る段階と、
タギングモードに入る段階とをさらに含む、付記40に記載の方法。
(付記47)
検索結果に対して、示唆された複数のタグを生成する段階と、
検索示唆ウィンドウに示唆されたタグを表示する段階と、
示唆されたタグのクリックによる選択を受け取る段階と、
示唆されたタグで検索結果をタグする段階とをさらに含む、付記40に記載の方法。
(付記48)
示唆されたタグのクリックによる選択を受け取る段階と、
示唆されたタグを検索タームに加え、次の検索を開始する段階と
をさらに含む、付記40に記載の方法。
(付記49)
検索結果のクリックによる選択を受け取る段階と、
選択された検索結果を検索タームに加え、次の検索を開始する段階と、
次の検索の1つ以上の検索結果を返す段階とをさらに含む、付記40に記載の方法。
(付記50) 検索結果は画像またはビデオを含む、付記40に記載の方法。
Claims (8)
- クエリの最初のタームセットを受け取るよう構成されたインターフェイスと、
方法を実行するように構成されたプロセッサとを有する装置であって、
前記方法は、
候補タームセットを初期化する段階と、
次の段階、すなわち
候補タームのセットの各候補タームについて、それとの差分類似性が高い所定数の暫定タームを取得する段階;
2つ以上の候補タームから暫定タームを取得した場合、各暫定タームとそれに関連する高い差分類似性とを暫定タームのセットに入れる段階であって、暫定タームの差分類似性は2つ以上の候補タームに対する差分類似性に関係する段階;
暫定タームセットの各暫定タームの平均差分類似性を計算する段階であって、平均差分類似性は各暫定タームから最初のタームセットのすべてのタームへの差分類似性の平均を表す段階;
平均差分類似性が所定閾値を満たさない1つ以上のタームを暫定タームセットから削除する段階;
差分類似性が高い暫定タームセットの1つ以上のタームを候補タームセットに入れる段階;
を所定回数繰り返す段階と、
候補タームセットの1つ以上のタームを選択する段階と、
選択した1つ以上のタームを返す段階とを含む
装置。 - 前記プロセッサは、
候補タームセットの各タームの平均類似性を決定し、
平均類似性が高い1つ以上のタームを選択することにより、
候補セットの1つ以上のタームを選択するように構成された、請求項1に記載の装置。 - 前記プロセッサは、
1つ以上のタームの各タームの第2の平均差分類似性を決定し、前記第2の平均差分類似性は各タームから候補タームセットのすべてのタームへの差分類似性の平均を表し、
第2の平均差分類似性が高い1つ以上のタームを選択することにより、
候補セットの1つ以上のタームを選択するように構成された、請求項1に記載の装置。 - クエリの最初のタームセットを受け取る段階と、
候補タームセットを初期化する段階と、
候補タームのセットの各候補タームについて、それとの差分類似性が高い所定数の暫定タームを取得する段階;
2つ以上の候補タームから暫定タームを取得した場合、各暫定タームとそれに関連する高い差分類似性とを暫定タームのセットに入れる段階であって、暫定タームの差分類似性は2つ以上の候補タームに対する差分類似性に関係する段階;
暫定タームセットの各暫定タームの平均差分類似性を計算する段階であって、平均差分類似性は各暫定タームから最初のタームセットのすべてのタームへの差分類似性の平均を表す段階;
平均差分類似性が所定閾値を満たさない1つ以上のタームを暫定タームセットから削除する段階;
差分類似性が高い暫定タームセットの1つ以上のタームを候補タームセットに入れる段階;
を所定回数繰り返す段階と、
候補タームセットの1つ以上のタームを選択する段階と、
選択した1つ以上のタームを返す段階と
を含む方法。 - タームセットを記憶するように構成された有体のコンピュータ読み取り可能媒体と、
プロセッサであって、
文書のタームセットの各タームに対して、TF−IDF値を決定し、
TF−IDF値によりタームをソートして、ソート済みリストを生成し、TF−IDF値が一番高い第1のタームがソート済みリストの一番上になり、TF−IDF値が一番低い第2のタームがソート済みリストの一番下になり、
ソート済みリストの連続するタームのそれぞれについて、そのTF−IDF値の差を計算し、複数の差を求め、
差の標準偏差を計算し、
標準偏差に基づきソート済みリストから1つ以上のタームを削除し、
残ったタームを出力するプロセッサと
を有する装置。 - 文書のタームセットの各タームに対して、TF−IDF値を決定する段階と、
TF−IDF値によりタームをソートして、ソート済みリストを生成する段階であって、TF−IDF値が一番高い第1のタームがソート済みリストの一番上になり、TF−IDF値が一番低い第2のタームがソート済みリストの一番下になる段階と、
ソート済みリストの連続するタームのそれぞれについて、そのTF−IDF値の差を計算し、複数の差を求める段階と、
差の標準偏差を計算する段階と、
標準偏差に基づきソート済みリストから1つ以上のタームを削除する段階と、
残ったタームを出力する段階と
を含む方法。 - 文書コーパスを記憶するように構成された有体のコンピュータ読み取り可能媒体と、
プロセッサであって、
グラフィカルユーザインターフェイスのユーザエントリーウィンドウを表示し、
前記ユーザエントリーウィンドウに入力された複数の検索タームを受け取り第1の検索を開始し、
前記検索タームに基づき前記コーパスから1つ以上の第1の検索結果を決定し、
グラフィカルユーザインターフェイスのカレント検索タームウィンドウに検索タームを表示し、
グラフィカルユーザインターフェイスの検索結果ウィンドウに1つ以上の第1の検索結果を表示し、
グラフィカルユーザインターフェイスの検索示唆ウィンドウに1つ以上の第1の検索示唆を表示するように構成されたプロセッサとを有する装置。 - グラフィカルユーザインターフェイスのユーザエントリーウィンドウを表示する段階と、
前記ユーザエントリーウィンドウに入力された複数の検索タームを受け取り第1の検索を開始する段階と、
前記検索タームに基づき文書のコーパスから1つ以上の第1の検索結果を決定する段階と、
グラフィカルユーザインターフェイスのカレント検索タームウィンドウに検索タームを表示する段階と、
グラフィカルユーザインターフェイスの検索結果ウィンドウに1つ以上の第1の検索結果を表示する段階と、
グラフィカルユーザインターフェイスの検索示唆ウィンドウに1つ以上の第1の検索示唆を表示する段階とを含む方法。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US2823308P | 2008-02-13 | 2008-02-13 | |
US61/028,233 | 2008-02-13 | ||
US12/368,689 US8280886B2 (en) | 2008-02-13 | 2009-02-10 | Determining candidate terms related to terms of a query |
US12/368,689 | 2009-02-10 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009193584A true JP2009193584A (ja) | 2009-08-27 |
JP5423030B2 JP5423030B2 (ja) | 2014-02-19 |
Family
ID=40939777
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009031981A Active JP5423030B2 (ja) | 2008-02-13 | 2009-02-13 | ワードセットに関係するワードの決定 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8280886B2 (ja) |
JP (1) | JP5423030B2 (ja) |
CN (1) | CN101566997B (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011076524A (ja) * | 2009-10-01 | 2011-04-14 | Science Craft:Kk | 文書解析装置および方法 |
JP2013145429A (ja) * | 2012-01-13 | 2013-07-25 | Internatl Business Mach Corp <Ibm> | 会話から雑談部分を抽出するための雑談抽出システム、方法、およびプログラム |
JP2013218628A (ja) * | 2012-04-12 | 2013-10-24 | Nippon Telegr & Teleph Corp <Ntt> | 文字列類似度計算装置、方法、及びプログラム |
JP2014501988A (ja) * | 2011-01-07 | 2014-01-23 | プライマル フュージョン インコーポレイテッド | 複合的知識表現の解析及び合成を行うシステム及び方法 |
US9934465B2 (en) | 2005-03-30 | 2018-04-03 | Primal Fusion Inc. | Systems and methods for analyzing and synthesizing complex knowledge representations |
US10002325B2 (en) | 2005-03-30 | 2018-06-19 | Primal Fusion Inc. | Knowledge representation systems and methods incorporating inference rules |
US10248669B2 (en) | 2010-06-22 | 2019-04-02 | Primal Fusion Inc. | Methods and devices for customizing knowledge representation systems |
WO2022044115A1 (ja) * | 2020-08-25 | 2022-03-03 | 日本電信電話株式会社 | 情報処理装置、情報処理方法、および、プログラム |
JP7432801B2 (ja) | 2021-12-30 | 2024-02-16 | 之江実験室 | デプスマップマッチングに基づく医療データエレメント自動化分類方法及びシステム |
Families Citing this family (87)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8583419B2 (en) * | 2007-04-02 | 2013-11-12 | Syed Yasin | Latent metonymical analysis and indexing (LMAI) |
US7908279B1 (en) * | 2007-05-25 | 2011-03-15 | Amazon Technologies, Inc. | Filtering invalid tokens from a document using high IDF token filtering |
US8078632B1 (en) * | 2008-02-15 | 2011-12-13 | Google Inc. | Iterated related item discovery |
US8150829B2 (en) * | 2008-04-11 | 2012-04-03 | Fujitsu Limited | Facilitating display of an interactive and dynamic cloud of terms related to one or more input terms |
JP5355949B2 (ja) * | 2008-07-16 | 2013-11-27 | 株式会社東芝 | 次検索キーワード提示装置、次検索キーワード提示方法、及び次検索キーワード提示プログラム |
TW201013430A (en) * | 2008-09-17 | 2010-04-01 | Ibm | Method and system for providing suggested tags associated with a target page for manipulation by a user |
US9443209B2 (en) * | 2009-04-30 | 2016-09-13 | Paypal, Inc. | Recommendations based on branding |
US8271499B2 (en) * | 2009-06-10 | 2012-09-18 | At&T Intellectual Property I, L.P. | Incremental maintenance of inverted indexes for approximate string matching |
GB2472250A (en) * | 2009-07-31 | 2011-02-02 | Stephen Timothy Morris | Method for determining document relevance |
US8583673B2 (en) * | 2009-08-17 | 2013-11-12 | Microsoft Corporation | Progressive filtering of search results |
JP5382651B2 (ja) * | 2009-09-09 | 2014-01-08 | 独立行政法人情報通信研究機構 | 単語対取得装置、単語対取得方法、およびプログラム |
JP5424798B2 (ja) * | 2009-09-30 | 2014-02-26 | 株式会社日立ソリューションズ | メタデータ設定方法及びメタデータ設定システム、並びにプログラム |
US20110119250A1 (en) * | 2009-11-16 | 2011-05-19 | Cpa Global Patent Research Limited | Forward Progress Search Platform |
CN102725751A (zh) * | 2009-11-17 | 2012-10-10 | Cpa全球专利研究有限公司 | 前向进程检索平台 |
WO2011061556A1 (en) * | 2009-11-20 | 2011-05-26 | Kim Mo | Intelligent search system |
WO2011083739A1 (ja) * | 2010-01-05 | 2011-07-14 | 日本電気株式会社 | 情報伝達支援装置、情報伝達支援方法および記録媒体 |
US8185558B1 (en) * | 2010-04-19 | 2012-05-22 | Facebook, Inc. | Automatically generating nodes and edges in an integrated social graph |
US8788260B2 (en) | 2010-05-11 | 2014-07-22 | Microsoft Corporation | Generating snippets based on content features |
KR101248187B1 (ko) * | 2010-05-28 | 2013-03-27 | 최진근 | 확장 검색어 선정 시스템 및 확장 검색어 선정 방법 |
US8930360B2 (en) * | 2010-05-28 | 2015-01-06 | Yahoo! Inc. | System and method for online handwriting recognition in web queries |
US9703871B1 (en) * | 2010-07-30 | 2017-07-11 | Google Inc. | Generating query refinements using query components |
KR101850886B1 (ko) * | 2010-12-23 | 2018-04-23 | 네이버 주식회사 | 감소 질의를 추천하는 검색 시스템 및 방법 |
US20120191744A1 (en) * | 2011-01-21 | 2012-07-26 | Microsoft Corporation | Detecting search mode in a browser navigation bar |
US8484228B2 (en) * | 2011-03-17 | 2013-07-09 | Indian Institute Of Science | Extraction and grouping of feature words |
US8699417B2 (en) * | 2011-04-29 | 2014-04-15 | T-Mobile Usa, Inc. | Microwave backhaul arrangements |
US9471547B1 (en) | 2011-09-23 | 2016-10-18 | Amazon Technologies, Inc. | Navigating supplemental information for a digital work |
US9639518B1 (en) | 2011-09-23 | 2017-05-02 | Amazon Technologies, Inc. | Identifying entities in a digital work |
US9449526B1 (en) | 2011-09-23 | 2016-09-20 | Amazon Technologies, Inc. | Generating a game related to a digital work |
US9613003B1 (en) * | 2011-09-23 | 2017-04-04 | Amazon Technologies, Inc. | Identifying topics in a digital work |
US8782058B2 (en) * | 2011-10-12 | 2014-07-15 | Desire2Learn Incorporated | Search index dictionary |
CN102368262B (zh) * | 2011-10-14 | 2013-05-29 | 北京百度网讯科技有限公司 | 一种提供与查询序列相对应的搜索建议的方法与设备 |
KR20130050705A (ko) * | 2011-11-08 | 2013-05-16 | 삼성전자주식회사 | 키워드 검색 방법 및 장치 |
US8566340B2 (en) * | 2011-12-07 | 2013-10-22 | Microsoft Corporation | Provision of query suggestions independent of query logs |
CN103198057B (zh) * | 2012-01-05 | 2017-11-07 | 深圳市世纪光速信息技术有限公司 | 一种自动给文档添加标签的方法和装置 |
CN103365876B (zh) * | 2012-03-29 | 2020-04-24 | 北京百度网讯科技有限公司 | 基于关系图谱生成网络操作辅助信息的方法与设备 |
US9092504B2 (en) | 2012-04-09 | 2015-07-28 | Vivek Ventures, LLC | Clustered information processing and searching with structured-unstructured database bridge |
US8738628B2 (en) * | 2012-05-31 | 2014-05-27 | International Business Machines Corporation | Community profiling for social media |
CN103577401A (zh) * | 2012-07-18 | 2014-02-12 | 腾讯科技(深圳)有限公司 | 一种移动终端搜索方法及系统 |
US9336302B1 (en) | 2012-07-20 | 2016-05-10 | Zuci Realty Llc | Insight and algorithmic clustering for automated synthesis |
US9483463B2 (en) * | 2012-09-10 | 2016-11-01 | Xerox Corporation | Method and system for motif extraction in electronic documents |
US20140096029A1 (en) * | 2012-09-28 | 2014-04-03 | Interactive Memories, Inc. | Method for Dynamic Bundling of Graphics Editing Tools presented to Clients engaged in Image-Based Project Creation through an Electronic Interface |
US8782549B2 (en) | 2012-10-05 | 2014-07-15 | Google Inc. | Incremental feature-based gesture-keyboard decoding |
US9021380B2 (en) | 2012-10-05 | 2015-04-28 | Google Inc. | Incremental multi-touch gesture recognition |
US8701032B1 (en) | 2012-10-16 | 2014-04-15 | Google Inc. | Incremental multi-word recognition |
US8850350B2 (en) | 2012-10-16 | 2014-09-30 | Google Inc. | Partial gesture text entry |
US8843845B2 (en) | 2012-10-16 | 2014-09-23 | Google Inc. | Multi-gesture text input prediction |
US8819574B2 (en) | 2012-10-22 | 2014-08-26 | Google Inc. | Space prediction for text input |
US9105068B2 (en) | 2012-11-12 | 2015-08-11 | Facebook, Inc. | Grammar model for structured search queries |
US8832589B2 (en) | 2013-01-15 | 2014-09-09 | Google Inc. | Touch keyboard using language and spatial models |
US20140207786A1 (en) * | 2013-01-22 | 2014-07-24 | Equivio Ltd. | System and methods for computerized information governance of electronic documents |
US10339452B2 (en) | 2013-02-06 | 2019-07-02 | Verint Systems Ltd. | Automated ontology development |
US9092444B2 (en) * | 2013-03-11 | 2015-07-28 | International Business Machines Corporation | Caching of deep structures for efficient parsing |
US9471485B2 (en) * | 2013-03-12 | 2016-10-18 | Macronix International Co., Ltd. | Difference L2P method |
US9402101B2 (en) * | 2013-03-15 | 2016-07-26 | Panasonic Intellectual Property Corporation Of America | Content presentation method, content presentation device, and program |
US9081500B2 (en) | 2013-05-03 | 2015-07-14 | Google Inc. | Alternative hypothesis error correction for gesture typing |
IN2013MU02217A (ja) * | 2013-07-01 | 2015-06-12 | Tata Consultancy Services Ltd | |
US20150066506A1 (en) | 2013-08-30 | 2015-03-05 | Verint Systems Ltd. | System and Method of Text Zoning |
US20150088493A1 (en) * | 2013-09-20 | 2015-03-26 | Amazon Technologies, Inc. | Providing descriptive information associated with objects |
US20150161649A1 (en) * | 2013-12-10 | 2015-06-11 | Semantic Labs, LLC | Method and system for authorizing and enabling anonymous consumer internet personalization |
CN103744954B (zh) * | 2014-01-06 | 2017-02-01 | 同济大学 | 一种词关联网模型的构建方法及其构建器 |
US10255346B2 (en) * | 2014-01-31 | 2019-04-09 | Verint Systems Ltd. | Tagging relations with N-best |
US9977830B2 (en) | 2014-01-31 | 2018-05-22 | Verint Systems Ltd. | Call summary |
US10380253B2 (en) * | 2014-03-04 | 2019-08-13 | International Business Machines Corporation | Natural language processing with dynamic pipelines |
US10242090B1 (en) * | 2014-03-06 | 2019-03-26 | The United States Of America As Represented By The Director, National Security Agency | Method and device for measuring relevancy of a document to a keyword(s) |
US9471570B2 (en) * | 2014-04-30 | 2016-10-18 | Excalibur Ip, Llc | Method and system for user selection of query suggestions |
US10614424B1 (en) | 2014-08-27 | 2020-04-07 | Google Llc | Assisted creation for time based events |
TW201619853A (zh) * | 2014-11-21 | 2016-06-01 | 財團法人資訊工業策進會 | 檢索過濾方法及其處理裝置 |
US20160203238A1 (en) * | 2015-01-09 | 2016-07-14 | Facebook, Inc. | Suggested Keywords for Searching News-Related Content on Online Social Networks |
US11030406B2 (en) | 2015-01-27 | 2021-06-08 | Verint Systems Ltd. | Ontology expansion using entity-association rules and abstract relations |
US10474672B2 (en) * | 2015-08-25 | 2019-11-12 | Schlafender Hase GmbH Software & Communications | Method for comparing text files with differently arranged text sections in documents |
US20170344553A1 (en) * | 2016-05-27 | 2017-11-30 | Facebook, Inc. | Methods and Systems for Making Recommendations based on Relationships |
US10671615B2 (en) | 2016-05-27 | 2020-06-02 | Facebook, Inc. | Methods and systems for assigning affinity scores to contacts |
US9645999B1 (en) * | 2016-08-02 | 2017-05-09 | Quid, Inc. | Adjustment of document relationship graphs |
KR102017853B1 (ko) * | 2016-09-06 | 2019-09-03 | 주식회사 카카오 | 검색 방법 및 장치 |
US11205103B2 (en) | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
JP6891552B2 (ja) * | 2017-03-13 | 2021-06-18 | 富士通株式会社 | 検索語分類プログラム、検索語分類方法および情報処理装置 |
CN108513140B (zh) * | 2018-03-05 | 2020-10-16 | 北京明略昭辉科技有限公司 | 一种用于音频中筛选重复广告片段并生成毛音频的方法 |
CA3117323A1 (en) | 2018-10-22 | 2020-04-30 | William D. Carlson | Therapeutic combinations of tdfrps and additional agents and methods of use |
US10867338B2 (en) | 2019-01-22 | 2020-12-15 | Capital One Services, Llc | Offering automobile recommendations from generic features learned from natural language inputs |
US11769012B2 (en) | 2019-03-27 | 2023-09-26 | Verint Americas Inc. | Automated system and method to prioritize language model and ontology expansion and pruning |
US10489474B1 (en) | 2019-04-30 | 2019-11-26 | Capital One Services, Llc | Techniques to leverage machine learning for search engine optimization |
US10565639B1 (en) | 2019-05-02 | 2020-02-18 | Capital One Services, Llc | Techniques to facilitate online commerce by leveraging user activity |
US10937213B2 (en) | 2019-06-27 | 2021-03-02 | Fuji Xerox Co., Ltd. | Systems and methods for summarizing and steering multi-user collaborative data analyses |
US11232110B2 (en) * | 2019-08-23 | 2022-01-25 | Capital One Services, Llc | Natural language keyword tag extraction |
US10796355B1 (en) | 2019-12-27 | 2020-10-06 | Capital One Services, Llc | Personalized car recommendations based on customer web traffic |
US20230386624A1 (en) * | 2022-05-25 | 2023-11-30 | Canon Medical Systems Corporation | Data processing apparatus and method |
US20240070210A1 (en) * | 2022-08-30 | 2024-02-29 | Maplebear Inc. (Dba Instacart) | Suggesting keywords to define an audience for a recommendation about a content item |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08115321A (ja) * | 1994-10-14 | 1996-05-07 | Fuji Xerox Co Ltd | 文書作成支援装置 |
JP2002140366A (ja) * | 2000-10-31 | 2002-05-17 | Ricoh Co Ltd | 関連語選出装置、その方法および記録媒体、並びに文書検索装置、その方法および記録媒体 |
JP2004287725A (ja) * | 2003-03-20 | 2004-10-14 | Fujitsu Ltd | 検索処理方法及びプログラム |
JP2005228064A (ja) * | 2004-02-13 | 2005-08-25 | Matsushita Electric Ind Co Ltd | 情報検索装置 |
US20050198068A1 (en) * | 2004-03-04 | 2005-09-08 | Shouvick Mukherjee | Keyword recommendation for internet search engines |
JP2007233708A (ja) * | 2006-03-01 | 2007-09-13 | Fujifilm Corp | 画像分類装置および方法並びにプログラム |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3598211B2 (ja) * | 1998-01-13 | 2004-12-08 | 富士通株式会社 | 関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体 |
US6175829B1 (en) * | 1998-04-22 | 2001-01-16 | Nec Usa, Inc. | Method and apparatus for facilitating query reformulation |
US7225182B2 (en) | 1999-05-28 | 2007-05-29 | Overture Services, Inc. | Recommending search terms using collaborative filtering and web spidering |
US6519586B2 (en) * | 1999-08-06 | 2003-02-11 | Compaq Computer Corporation | Method and apparatus for automatic construction of faceted terminological feedback for document retrieval |
US7096218B2 (en) * | 2002-01-14 | 2006-08-22 | International Business Machines Corporation | Search refinement graphical user interface |
US7676452B2 (en) * | 2002-07-23 | 2010-03-09 | International Business Machines Corporation | Method and apparatus for search optimization based on generation of context focused queries |
US6873996B2 (en) * | 2003-04-16 | 2005-03-29 | Yahoo! Inc. | Affinity analysis method and article of manufacture |
GB2403636A (en) | 2003-07-02 | 2005-01-05 | Sony Uk Ltd | Information retrieval using an array of nodes |
US20060031219A1 (en) * | 2004-07-22 | 2006-02-09 | Leon Chernyak | Method and apparatus for informational processing based on creation of term-proximity graphs and their embeddings into informational units |
US7606793B2 (en) * | 2004-09-27 | 2009-10-20 | Microsoft Corporation | System and method for scoping searches using index keys |
JP2006215936A (ja) * | 2005-02-07 | 2006-08-17 | Hitachi Ltd | 検索システム及び検索方法 |
US7805300B2 (en) * | 2005-03-21 | 2010-09-28 | At&T Intellectual Property Ii, L.P. | Apparatus and method for analysis of language model changes |
US7870147B2 (en) | 2005-03-29 | 2011-01-11 | Google Inc. | Query revision using known highly-ranked queries |
US7844566B2 (en) * | 2005-04-26 | 2010-11-30 | Content Analyst Company, Llc | Latent semantic clustering |
JP4803709B2 (ja) * | 2005-07-12 | 2011-10-26 | 独立行政法人情報通信研究機構 | 単語用法差異情報取得プログラム及び同装置 |
US9715542B2 (en) | 2005-08-03 | 2017-07-25 | Search Engine Technologies, Llc | Systems for and methods of finding relevant documents by analyzing tags |
WO2008027503A2 (en) * | 2006-08-31 | 2008-03-06 | The Regents Of The University Of California | Semantic search engine |
US7987176B2 (en) * | 2007-06-25 | 2011-07-26 | Sap Ag | Mixed initiative semantic search |
US7996379B1 (en) * | 2008-02-01 | 2011-08-09 | Google Inc. | Document ranking using word relationships |
-
2009
- 2009-02-10 US US12/368,689 patent/US8280886B2/en active Active
- 2009-02-13 CN CN2009100071612A patent/CN101566997B/zh active Active
- 2009-02-13 JP JP2009031981A patent/JP5423030B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08115321A (ja) * | 1994-10-14 | 1996-05-07 | Fuji Xerox Co Ltd | 文書作成支援装置 |
JP2002140366A (ja) * | 2000-10-31 | 2002-05-17 | Ricoh Co Ltd | 関連語選出装置、その方法および記録媒体、並びに文書検索装置、その方法および記録媒体 |
JP2004287725A (ja) * | 2003-03-20 | 2004-10-14 | Fujitsu Ltd | 検索処理方法及びプログラム |
JP2005228064A (ja) * | 2004-02-13 | 2005-08-25 | Matsushita Electric Ind Co Ltd | 情報検索装置 |
US20050198068A1 (en) * | 2004-03-04 | 2005-09-08 | Shouvick Mukherjee | Keyword recommendation for internet search engines |
JP2007233708A (ja) * | 2006-03-01 | 2007-09-13 | Fujifilm Corp | 画像分類装置および方法並びにプログラム |
Non-Patent Citations (2)
Title |
---|
CSNG200001287013; 梶 博行 他: 'コーパス対応の関連シソーラスナビゲーション' 情報処理学会研究報告 99-DBS-118 99-FI-54 第99巻 第39号, 19990517, pp.97-104, 社団法人情報処理学会 * |
JPN6013008026; 梶 博行 他: 'コーパス対応の関連シソーラスナビゲーション' 情報処理学会研究報告 99-DBS-118 99-FI-54 第99巻 第39号, 19990517, pp.97-104, 社団法人情報処理学会 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9934465B2 (en) | 2005-03-30 | 2018-04-03 | Primal Fusion Inc. | Systems and methods for analyzing and synthesizing complex knowledge representations |
US10002325B2 (en) | 2005-03-30 | 2018-06-19 | Primal Fusion Inc. | Knowledge representation systems and methods incorporating inference rules |
JP2011076524A (ja) * | 2009-10-01 | 2011-04-14 | Science Craft:Kk | 文書解析装置および方法 |
US10248669B2 (en) | 2010-06-22 | 2019-04-02 | Primal Fusion Inc. | Methods and devices for customizing knowledge representation systems |
JP2014501988A (ja) * | 2011-01-07 | 2014-01-23 | プライマル フュージョン インコーポレイテッド | 複合的知識表現の解析及び合成を行うシステム及び方法 |
JP2013145429A (ja) * | 2012-01-13 | 2013-07-25 | Internatl Business Mach Corp <Ibm> | 会話から雑談部分を抽出するための雑談抽出システム、方法、およびプログラム |
JP2013218628A (ja) * | 2012-04-12 | 2013-10-24 | Nippon Telegr & Teleph Corp <Ntt> | 文字列類似度計算装置、方法、及びプログラム |
WO2022044115A1 (ja) * | 2020-08-25 | 2022-03-03 | 日本電信電話株式会社 | 情報処理装置、情報処理方法、および、プログラム |
JP7448857B2 (ja) | 2020-08-25 | 2024-03-13 | 日本電信電話株式会社 | 情報処理装置、情報処理方法、および、プログラム |
JP7432801B2 (ja) | 2021-12-30 | 2024-02-16 | 之江実験室 | デプスマップマッチングに基づく医療データエレメント自動化分類方法及びシステム |
Also Published As
Publication number | Publication date |
---|---|
CN101566997A (zh) | 2009-10-28 |
US20090204609A1 (en) | 2009-08-13 |
JP5423030B2 (ja) | 2014-02-19 |
CN101566997B (zh) | 2012-10-31 |
US8280886B2 (en) | 2012-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5423030B2 (ja) | ワードセットに関係するワードの決定 | |
JP5391634B2 (ja) | 文書の段落分析によるその文書のタグの選択 | |
JP5332477B2 (ja) | ターム階層の自動生成 | |
JP5353173B2 (ja) | 文書の具体性の決定 | |
JP5391633B2 (ja) | オントロジー空間を規定するタームの推奨 | |
US9317593B2 (en) | Modeling topics using statistical distributions | |
US8108405B2 (en) | Refining a search space in response to user input | |
US10572521B2 (en) | Automatic new concept definition | |
JP5391632B2 (ja) | ワードと文書の深さの決定 | |
US20190073414A1 (en) | Automatically linking text to concepts in a knowledge base | |
US9805139B2 (en) | Computing the relevance of a document to concepts not specified in the document | |
US20160012126A1 (en) | System for searching, recommending, and exploring documents through conceptual associations | |
US9703858B2 (en) | Inverted table for storing and querying conceptual indices | |
Lee et al. | Reducing noises for recall-oriented patent retrieval | |
EP2090992A2 (en) | Determining words related to a given set of words | |
Kumar et al. | Enhancing the Search Results through Web Structure Mining Using Frequent Pattern Analysis and Linear Correlation Method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111006 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130226 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130426 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131029 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131111 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5423030 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |