JP2022059725A - 情報処理装置、情報処理システムおよびプログラム - Google Patents
情報処理装置、情報処理システムおよびプログラム Download PDFInfo
- Publication number
- JP2022059725A JP2022059725A JP2020167489A JP2020167489A JP2022059725A JP 2022059725 A JP2022059725 A JP 2022059725A JP 2020167489 A JP2020167489 A JP 2020167489A JP 2020167489 A JP2020167489 A JP 2020167489A JP 2022059725 A JP2022059725 A JP 2022059725A
- Authority
- JP
- Japan
- Prior art keywords
- pair
- relevance
- tokens
- token
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims description 67
- 238000011156 evaluation Methods 0.000 claims abstract description 89
- 238000000034 method Methods 0.000 description 44
- 230000004048 modification Effects 0.000 description 17
- 238000012986 modification Methods 0.000 description 17
- 230000005540 biological transmission Effects 0.000 description 14
- 230000008569 process Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 6
- 230000004044 response Effects 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000008707 rearrangement Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】ユーザに対し、トークンのペアを提示する際に、無作為にトークンのペアを選択する場合に比較して、これらの関連度を算出するために、より効率的なペアを選択することができる情報処理装置等を提供する。【解決手段】プロセッサを備え、プロセッサは、トークンのペアの選択をし、選択したトークンのペアをユーザに対し提示したときに、提示したトークンのペアに対するユーザによる関連度の評価の受け付けをし、受け付けた評価から、提示したトークンのペアの関連度の算出をし、算出した関連度が同程度のトークンのペアについて再度選択をし、再度選択したトークンのペアをユーザに対し提示したときに、提示したトークンのペアに対するユーザによる関連度の評価の受け付けを再度し、再度受け付けた評価から提示したトークンのペアの関連度の算出を再度することを特徴とする情報処理装置。【選択図】図4
Description
本発明は、情報処理装置、情報処理システム、プログラムに関する。
従来より、トークンのペアの関連度を収集するために、ユーザに対し、トークンのペアを提示し、ユーザにより判断された関連度を取得し、これを基にトークンのペア関連度の算出を行う情報処理装置が存在する。
特許文献1には、あるアンケート目的に合わせて準備された評価対象項目の総数がきわめて多くても、個々のアンケート回答者にあまり負担をかけることなく回答してもらえ、多数の回答者からの多元的な回答を統計的に処理することで、多数の評価対象項目についてアンケート回答者の心理評価を的確に反映した有意義な一元的回答序列を導き出すための方法が記載されている。この方法では、回答分析プロセスにおいて、回答データベースに蓄積されたn個の重み付け提示項目セットを集計処理し、各1セット中のi個の評価対象項目の重み付けによるn次元の多元的序列をn個の提示項目セット間の接続関係に基づいて一元化し、m個の評価対象項目に一元的回答序列を付与する。
しかしながら、トークンのペアの関連度の精度を向上させるためには、多くのトークンのペアの関連度をユーザが判断する必要があり、ユーザの負担が大きい。つまり、多くのトークンについて、これらのペアを提示してユーザの判断を求める場合、ペアの数が膨大になり、これらのペアの関連度を精度よく調べるには、ユーザが多くのペアの関連度を判断する必要がある。よって、トークンのペアを提示する際には、関連度を算出するのに、無作為にトークンのペアを提示するのではなく、関連度を算出するために、より効率的なトークンのペアを提示することが求められる。
本発明は、ユーザに対し、トークンのペアを提示する際に、無作為にトークンのペアを選択する場合に比較して、これらの関連度を算出するために、より効率的なペアを選択することができる情報処理装置等を提供することを目的とする。
本発明は、ユーザに対し、トークンのペアを提示する際に、無作為にトークンのペアを選択する場合に比較して、これらの関連度を算出するために、より効率的なペアを選択することができる情報処理装置等を提供することを目的とする。
請求項1に記載の発明は、プロセッサを備え、前記プロセッサは、トークンのペアの選択をし、選択したトークンのペアをユーザに対し提示したときに、提示したトークンのペアに対するユーザによる関連度の評価の受け付けをし、受け付けた前記評価から、提示したトークンのペアの関連度の算出をし、算出した関連度が同程度のトークンのペアについて再度選択をし、再度選択したトークンのペアをユーザに対し提示したときに、提示したトークンのペアに対するユーザによる関連度の評価の受け付けを再度し、再度受け付けた当該評価から提示したトークンのペアの関連度の算出を再度することを特徴とする情報処理装置である。
請求項2に記載の発明は、前記プロセッサは、関連度を基に、トークンのペアをグループ化し、グループに含まれるトークンのペアをまとめてユーザに対し提示したときの、トークンのペアに対するユーザによる関連度の評価の受け付けをすることを特徴とする請求項1に記載の情報処理装置である。
請求項3に記載の発明は、前記プロセッサは、関連度が同程度のトークンのペアを同じグループとすることを特徴とする請求項2に記載の情報処理装置である。
請求項4に記載の発明は、前記プロセッサは、関連度が大きいトークンのペアが含まれるグループについて、優先的に提示することを特徴とする請求項3に記載の情報処理装置である。
請求項5に記載の発明は、前記ユーザによる関連度の評価は、まとめて提示されたトークンのペアを、関連度に応じ並べ換えた後の順序であることを特徴とする請求項2に記載の情報処理装置である。
請求項6に記載の発明は、前記プロセッサは、分散表現に基づき、選択の対象となるトークンのペアを予め作成することを特徴とする請求項1に記載の情報処理装置である。
請求項7に記載の発明は、前記プロセッサは、分散表現に基づき複数のトークンをクラスタリングしてクラスタを作成し、各クラスタの中に属するトークンの間でペアを作成することを特徴とする請求項6に記載の情報処理装置である。
請求項8に記載の発明は、前記プロセッサは、各クラスタの中に属するトークンの中から代表となるトークンである代表トークンを選択し、当該代表トークンと各クラスタに属する残りのトークンとの間でペアを作成することを特徴とする請求項7に記載の情報処理装置である。
請求項9に記載の発明は、前記プロセッサは、代表トークン同士でさらにペアを作成することを特徴とする請求項8に記載の情報処理装置である。
請求項10に記載の発明は、前記プロセッサは、算出したトークンのペアの関連度を基に分散表現を追学習し、追学習した分散表現を基にトークンのペアについての前記選択を再度行うことを特徴とする請求項6に記載の情報処理装置である。
請求項11に記載の発明は、前記プロセッサは、算出したトークンのペアの関連度を基に、トークンのペアについての、前記選択、前記受け付けおよび前記算出を、算出したトークンのペアの関連度が収束するまで繰り返し行うことを特徴とする請求項1に記載の情報処理装置である。
請求項12に記載の発明は、トークンのペアの関連度を算出する情報処理装置と、前記情報処理装置が選択したトークンのペアをユーザに対し提示する提示装置と、を備え、前記情報処理装置は、プロセッサを備え、前記プロセッサは、トークンのペアの選択をし、選択したトークンのペアをユーザに対し提示したときに、提示したトークンのペアに対するユーザによる関連度の評価の受け付けをし、受け付けた前記評価から、提示したトークンのペアの関連度の算出をし、算出した関連度が同程度のトークンのペアについて再度選択をし、再度選択したトークンのペアをユーザに対し提示したときに、提示したトークンのペアに対するユーザによる関連度の評価の受け付けを再度し、再度受け付けた当該評価から提示したトークンのペアの関連度の算出を再度することを特徴とする情報処理システムである。
請求項13に記載の発明は、前記情報処理装置の前記プロセッサは、ユーザから検索の指示をさらに受け付け、算出したトークンのペアの関連度を基に、検索結果を決定することを特徴とする請求項12に記載の情報処理システムである。
請求項14に記載の発明は、コンピュータに、トークンのペアの選択をする機能と、選択したトークンのペアをユーザに対し提示したときに、提示したトークンのペアに対するユーザによる関連度の評価の受け付けをする機能と、受け付けた前記評価から、提示したトークンのペアの関連度の算出をする機能と、算出した関連度が同程度のトークンのペアについて再度選択をし、再度選択したトークンのペアをユーザに対し提示したときに、提示したトークンのペアに対するユーザによる関連度の評価の受け付けを再度し、再度受け付けた当該評価から提示したトークンのペアの関連度の算出を再度する機能と、を実現させるためのプログラムである。
請求項2に記載の発明は、前記プロセッサは、関連度を基に、トークンのペアをグループ化し、グループに含まれるトークンのペアをまとめてユーザに対し提示したときの、トークンのペアに対するユーザによる関連度の評価の受け付けをすることを特徴とする請求項1に記載の情報処理装置である。
請求項3に記載の発明は、前記プロセッサは、関連度が同程度のトークンのペアを同じグループとすることを特徴とする請求項2に記載の情報処理装置である。
請求項4に記載の発明は、前記プロセッサは、関連度が大きいトークンのペアが含まれるグループについて、優先的に提示することを特徴とする請求項3に記載の情報処理装置である。
請求項5に記載の発明は、前記ユーザによる関連度の評価は、まとめて提示されたトークンのペアを、関連度に応じ並べ換えた後の順序であることを特徴とする請求項2に記載の情報処理装置である。
請求項6に記載の発明は、前記プロセッサは、分散表現に基づき、選択の対象となるトークンのペアを予め作成することを特徴とする請求項1に記載の情報処理装置である。
請求項7に記載の発明は、前記プロセッサは、分散表現に基づき複数のトークンをクラスタリングしてクラスタを作成し、各クラスタの中に属するトークンの間でペアを作成することを特徴とする請求項6に記載の情報処理装置である。
請求項8に記載の発明は、前記プロセッサは、各クラスタの中に属するトークンの中から代表となるトークンである代表トークンを選択し、当該代表トークンと各クラスタに属する残りのトークンとの間でペアを作成することを特徴とする請求項7に記載の情報処理装置である。
請求項9に記載の発明は、前記プロセッサは、代表トークン同士でさらにペアを作成することを特徴とする請求項8に記載の情報処理装置である。
請求項10に記載の発明は、前記プロセッサは、算出したトークンのペアの関連度を基に分散表現を追学習し、追学習した分散表現を基にトークンのペアについての前記選択を再度行うことを特徴とする請求項6に記載の情報処理装置である。
請求項11に記載の発明は、前記プロセッサは、算出したトークンのペアの関連度を基に、トークンのペアについての、前記選択、前記受け付けおよび前記算出を、算出したトークンのペアの関連度が収束するまで繰り返し行うことを特徴とする請求項1に記載の情報処理装置である。
請求項12に記載の発明は、トークンのペアの関連度を算出する情報処理装置と、前記情報処理装置が選択したトークンのペアをユーザに対し提示する提示装置と、を備え、前記情報処理装置は、プロセッサを備え、前記プロセッサは、トークンのペアの選択をし、選択したトークンのペアをユーザに対し提示したときに、提示したトークンのペアに対するユーザによる関連度の評価の受け付けをし、受け付けた前記評価から、提示したトークンのペアの関連度の算出をし、算出した関連度が同程度のトークンのペアについて再度選択をし、再度選択したトークンのペアをユーザに対し提示したときに、提示したトークンのペアに対するユーザによる関連度の評価の受け付けを再度し、再度受け付けた当該評価から提示したトークンのペアの関連度の算出を再度することを特徴とする情報処理システムである。
請求項13に記載の発明は、前記情報処理装置の前記プロセッサは、ユーザから検索の指示をさらに受け付け、算出したトークンのペアの関連度を基に、検索結果を決定することを特徴とする請求項12に記載の情報処理システムである。
請求項14に記載の発明は、コンピュータに、トークンのペアの選択をする機能と、選択したトークンのペアをユーザに対し提示したときに、提示したトークンのペアに対するユーザによる関連度の評価の受け付けをする機能と、受け付けた前記評価から、提示したトークンのペアの関連度の算出をする機能と、算出した関連度が同程度のトークンのペアについて再度選択をし、再度選択したトークンのペアをユーザに対し提示したときに、提示したトークンのペアに対するユーザによる関連度の評価の受け付けを再度し、再度受け付けた当該評価から提示したトークンのペアの関連度の算出を再度する機能と、を実現させるためのプログラムである。
請求項1の発明によれば、トークンのペアを提示する際に、無作為にトークンのペアを選択する場合に比較して、これらの関連度を算出するために、より効率的なペアを選択することができる情報処理装置を提供することができる。
請求項2の発明によれば、ユーザが、複数のトークンのペアの関連度を同時に見て、これらの相対評価をすることができる。
請求項3の発明によれば、関連度が同程度の複数のトークンのペアについて、微妙な関連度の差異についての情報が得られる。
請求項4の発明によれば、トークンのペアの関連度を求める上で、より重要なものについてユーザの評価を得られる。
請求項5の発明によれば、トークンのペアの関連度について、さらに効率的に情報を収集することができる。
請求項6の発明によれば、予め準備するトークンのペアを、自動生成することができる。
請求項7の発明によれば、関連度が大きいと予想されるトークンのペアを生成できる。
請求項8、9の発明によれば、より多くのトークンをカバーしたトークンのペアを生成することができる。
請求項10の発明によれば、ユーザが評価したトークンのペアの関連度と、自動的な手法によって得られる関連度とを組み合わせることで、両者の長所を両立し、トークンのペアの関連度を求めるのに、より好適なトークンのペアをユーザに提示することができる。
請求項11の発明によれば、より適した終了条件を設定することができる。
請求項12の発明によれば、トークンのペアを提示する際に、無作為にトークンのペアを選択する場合に比較して、これらの関連度を算出するために、より効率的なペアを選択することができる情報処理システムを提供することができる。
請求項13の発明によれば、ユーザの目的に、より合致した検索結果を提示することができる。
請求項14の発明によれば、トークンのペアを提示する際に、無作為にトークンのペアを選択する場合に比較して、これらの関連度を算出するために、より効率的なペアを選択することができる機能をコンピュータにより実現できる。
請求項2の発明によれば、ユーザが、複数のトークンのペアの関連度を同時に見て、これらの相対評価をすることができる。
請求項3の発明によれば、関連度が同程度の複数のトークンのペアについて、微妙な関連度の差異についての情報が得られる。
請求項4の発明によれば、トークンのペアの関連度を求める上で、より重要なものについてユーザの評価を得られる。
請求項5の発明によれば、トークンのペアの関連度について、さらに効率的に情報を収集することができる。
請求項6の発明によれば、予め準備するトークンのペアを、自動生成することができる。
請求項7の発明によれば、関連度が大きいと予想されるトークンのペアを生成できる。
請求項8、9の発明によれば、より多くのトークンをカバーしたトークンのペアを生成することができる。
請求項10の発明によれば、ユーザが評価したトークンのペアの関連度と、自動的な手法によって得られる関連度とを組み合わせることで、両者の長所を両立し、トークンのペアの関連度を求めるのに、より好適なトークンのペアをユーザに提示することができる。
請求項11の発明によれば、より適した終了条件を設定することができる。
請求項12の発明によれば、トークンのペアを提示する際に、無作為にトークンのペアを選択する場合に比較して、これらの関連度を算出するために、より効率的なペアを選択することができる情報処理システムを提供することができる。
請求項13の発明によれば、ユーザの目的に、より合致した検索結果を提示することができる。
請求項14の発明によれば、トークンのペアを提示する際に、無作為にトークンのペアを選択する場合に比較して、これらの関連度を算出するために、より効率的なペアを選択することができる機能をコンピュータにより実現できる。
以下、添付図面を参照して、本発明の実施の形態について詳細に説明する。
<情報処理システム1の全体の説明>
図1は、本実施の形態における情報処理システム1の構成例を示す図である。
図示する情報処理システム1は、端末装置10として、端末装置10a~10dと、管理サーバ20とが、ネットワーク30を介して接続されることにより構成されている。
なお、図1では、端末装置10は、4つ示しているが、その数は、1つ以上であればいくつであってもよい。
図1は、本実施の形態における情報処理システム1の構成例を示す図である。
図示する情報処理システム1は、端末装置10として、端末装置10a~10dと、管理サーバ20とが、ネットワーク30を介して接続されることにより構成されている。
なお、図1では、端末装置10は、4つ示しているが、その数は、1つ以上であればいくつであってもよい。
図1で、情報処理システム1は、トークンのペアの関連度を求める装置である。「トークンのペア」は、同種のデータの組み合わせであり、例えば、テキストの組み合わせである。この場合、テキストは、例えば、単語、複合語、文である。また、画像や音声の組み合わせであってもよい。トークンのペアは、通常は、2つのトークンの組み合わせであるが、3つ以上の組み合わせであってもよい。また、「トークンのペアの関連度」は、トークンのペアを構成するトークン同士の関連の程度を言う。トークンのペアの関連度は、例えば、0以上10以下の数値により表すことができる。この場合、数値が大きいほど、トークンのペアの関連度が大きいことを表す。
端末装置10は、管理サーバ20が選択したトークンのペアをユーザに対し提示する提示装置の一例であり、ユーザの操作や管理サーバ20の指示に従い、ユーザに対しトークンのペアの提示を行う。この場合、ユーザに対しトークンのペアを表示する。そして、ユーザから、トークンのペアの関連度の評価を受け付ける。端末装置10は、例えば、汎用のパーソナルコンピュータ(PC)、モバイルコンピュータ、携帯電話、スマートフォン、タブレット等のコンピュータ装置である。そして、端末装置10は、OS(Operating System)による管理下において、各種アプリケーションソフトウェアを動作させることで、トークンのペアの表示や評価の受け付けを行う。
管理サーバ20は、トークンのペアの関連度を算出する情報処理装置の一例であり、情報処理システム1の全体の管理をするサーバコンピュータである。管理サーバ20は、例えば、端末装置10を操作するユーザの認証を行い、このユーザに対し、トークンのペアを提示する。そして、ユーザにより端末装置10に入力されたトークンのペアの関連度に関する情報を取得し、トークンのペアの関連度を算出する。
端末装置10および管理サーバ20は、演算手段であるCPU(Central Processing Unit)と、記憶手段であるメインメモリ、およびHDD(Hard Disk Drive)やSSD(Solid State Drive)等のストレージを備える。ここで、CPUは、プロセッサの一例であり、OS(基本ソフトウェア)やアプリケーションソフトウェア(応用ソフトウェア)等の各種ソフトウェアを実行する。また、メインメモリは、各種ソフトウェアやその実行に用いるデータ等を記憶する記憶領域であり、ストレージは、各種ソフトウェアに対する入力データや各種ソフトウェアからの出力データ等を記憶する記憶領域である。
さらに、端末装置10および管理サーバ20は、外部との通信を行うための通信インタフェース(以下、「通信I/F」と表記する)と、ビデオメモリやディスプレイ等からなる表示デバイスと、キーボード、マウス、タッチパネル等の入力デバイスとを備える。
さらに、端末装置10および管理サーバ20は、外部との通信を行うための通信インタフェース(以下、「通信I/F」と表記する)と、ビデオメモリやディスプレイ等からなる表示デバイスと、キーボード、マウス、タッチパネル等の入力デバイスとを備える。
ネットワーク30は、端末装置10および管理サーバ20の間の情報通信に用いられる通信手段であり、例えば、インターネット、LAN(Local Area Network)、WAN(Wide Area Network)である。データ通信に用いられる通信回線は、有線か無線かを問わず、これらを併用してもよい。また、端末装置10や管理サーバ20は、ゲートウェイ装置やルータ等の中継装置を用い、複数のネットワークや通信回線を介して接続されてもよい。
<情報処理システム1の動作の概略説明>
図2は、情報処理システム1の動作の概略を説明した図である。
まず、管理サーバ20が、トークンのペアを選択する(1A)。本実施の形態では、トークンのペアは複数である。そして、管理サーバ20は、トークンのペアのデータを端末装置10に対し送信する(1B)。
端末装置10では、送信された複数のトークンのペアを表示し、ユーザに提示する(1C)。これに対し、ユーザは、提示されたそれぞれのトークンのペアに対し、関連度の評価をし、評価を入力する(1D)。この評価の結果は、管理サーバ20に送られる(1E)。
管理サーバ20では、送られた関連度の評価から、提示したトークンのペアの関連度を算出する(1F)。
図2は、情報処理システム1の動作の概略を説明した図である。
まず、管理サーバ20が、トークンのペアを選択する(1A)。本実施の形態では、トークンのペアは複数である。そして、管理サーバ20は、トークンのペアのデータを端末装置10に対し送信する(1B)。
端末装置10では、送信された複数のトークンのペアを表示し、ユーザに提示する(1C)。これに対し、ユーザは、提示されたそれぞれのトークンのペアに対し、関連度の評価をし、評価を入力する(1D)。この評価の結果は、管理サーバ20に送られる(1E)。
管理サーバ20では、送られた関連度の評価から、提示したトークンのペアの関連度を算出する(1F)。
以後、1A~1Fの動作を繰り返す。即ち、管理サーバ20では、トークンのペアについて再選択する(1A)。次に、再度選択をしたトークンのペアのデータを端末装置10に対し再送信する(1B)。そして、端末装置10では、送信された複数のトークンのペアを、ユーザに再提示する(1C)。さらに、ユーザは、再提示されたそれぞれのトークンのペアに対し、関連度の再評価をし、評価の結果を入力する(1D)。そして、評価の結果は、管理サーバ20に送られる(1E)。管理サーバ20では、送られた関連度の評価から、再提示したトークンのペアの関連度を再び算出する(1F)。
<情報処理システム1の詳細説明>
[第1の実施形態]
次に、情報処理システム1の詳細説明を行う。
ここでは、まず、情報処理システム1の第1の実施形態について説明する。第1の実施形態では、情報処理システム1は、関連度を基に、トークンのペアをグループ化し、グループに含まれる複数のトークンのペアをまとめてユーザに対し提示する。そして、トークンのペアに対するユーザによる関連度の評価の受け付ける。また、トークンのペアを再提示する場合は、算出した関連度が同程度のトークンのペアについて再度選択をして再提示を行う。なお、ここで、「算出した関連度が同程度のトークンのペア」とは、算出した関連度の差が予め定められた範囲内に入るトークンのペアのことを言う。
[第1の実施形態]
次に、情報処理システム1の詳細説明を行う。
ここでは、まず、情報処理システム1の第1の実施形態について説明する。第1の実施形態では、情報処理システム1は、関連度を基に、トークンのペアをグループ化し、グループに含まれる複数のトークンのペアをまとめてユーザに対し提示する。そして、トークンのペアに対するユーザによる関連度の評価の受け付ける。また、トークンのペアを再提示する場合は、算出した関連度が同程度のトークンのペアについて再度選択をして再提示を行う。なお、ここで、「算出した関連度が同程度のトークンのペア」とは、算出した関連度の差が予め定められた範囲内に入るトークンのペアのことを言う。
図3は、第1の実施形態の情報処理システム1の機能構成例について説明したブロック図である。
なおここでは、情報処理システム1が有する種々の機能のうち本実施の形態に関係するものを選択して図示している。
なおここでは、情報処理システム1が有する種々の機能のうち本実施の形態に関係するものを選択して図示している。
図示する端末装置10は、管理サーバ20との間でデータの送受信を行う送受信部11と、トークンのペアの表示を行う表示部12と、ユーザが評価の入力を行なう入力部13と、を備える。
送受信部11は、ネットワーク30を介し、管理サーバ20から送られたトークンのペアを受信する。送受信部11は、例えば、通信I/Fに対応する。
表示部12は、ユーザの操作に応じ、管理サーバ20で選択したトークンのペアを表示することで、トークンのペアをユーザに提示する。表示部12は、例えば、表示デバイスに対応する。
入力部13は、トークンのペアを見たユーザが、関連度の評価を行う際に、評価の結果を受け付ける。入力部13は、例えば、入力デバイスに対応する。
送受信部11は、ネットワーク30を介し、管理サーバ20から送られたトークンのペアを受信する。送受信部11は、例えば、通信I/Fに対応する。
表示部12は、ユーザの操作に応じ、管理サーバ20で選択したトークンのペアを表示することで、トークンのペアをユーザに提示する。表示部12は、例えば、表示デバイスに対応する。
入力部13は、トークンのペアを見たユーザが、関連度の評価を行う際に、評価の結果を受け付ける。入力部13は、例えば、入力デバイスに対応する。
また、管理サーバ20は、端末装置10との間でデータの送受信を行う送受信部21と、ユーザの認証を行う認証部22と、トークンのペアの選択をする選択部23と、トークンのペアの関連度を算出する算出部24と、処理の終了を判定する終了判定部25と、トークンに関する情報を記憶する記憶部26と、を備える。
送受信部21は、端末装置10に対し、選択したトークンのペアを送信する。また、送受信部21は、選択したトークンのペアを、端末装置10にてユーザに対し提示したときに、提示したトークンのペアに対するユーザによる関連度の評価の受け付けをする。送受信部21は、例えば、通信I/Fに対応する。
認証部22は、予め定められた方法で、ユーザの認証を行う。認証部22は、例えば、ユーザから送られたユーザIDおよびパスワードと、記憶部26に記憶されているユーザIDおよびパスワードとを比較する。その結果、両者が合致すれば、ユーザを認証する。
認証部22は、予め定められた方法で、ユーザの認証を行う。認証部22は、例えば、ユーザから送られたユーザIDおよびパスワードと、記憶部26に記憶されているユーザIDおよびパスワードとを比較する。その結果、両者が合致すれば、ユーザを認証する。
選択部23は、トークンのペアを算出する。ここでは、トークンは、単語であり、記憶部26には、多数の単語が記憶される。そして、選択部23は、これらの単語の中から、ユーザの評価を受けるペアを選択する。
算出部24は、送受信部21が受け付けた評価から、提示したトークンのペアの関連度の算出をする。
算出部24は、送受信部21が受け付けた評価から、提示したトークンのペアの関連度の算出をする。
終了判定部25は、ユーザに対してトークンのペアを提示し、評価を取得する繰り返しの処理を終了するか否かを判定する。終了判定部25は、算出部24が算出したトークンのペアの関連度がほとんど変化しなくなった時点で終了する。即ち、算出したトークンのペアの関連度が収束した場合、一連の処理を終了する。また、繰り返しの処理が、予め定められた回数に達したときに終了するようにしてもよい。
記憶部26は、トークンのペアやその関連度についての情報を記憶する、また、記憶部26は、ユーザの評価を記憶する。
記憶部26は、トークンのペアやその関連度についての情報を記憶する、また、記憶部26は、ユーザの評価を記憶する。
次に、本実施の形態の情報処理システム1の動作の例について、より詳細に説明を行なう。
図4は、第1の実施形態の情報処理システム1の動作について示したフローチャートである。
まず、管理サーバ20の選択部23が、トークンのペアを選択する(ステップ101)。本実施の形態では、選択部23が選択するトークンのペアは複数である。
そして、送受信部21は、トークンのペアのデータを端末装置10に対し送信し、端末装置10では、送受信部11がトークンのペアのデータを受信する(ステップ102)。
図4は、第1の実施形態の情報処理システム1の動作について示したフローチャートである。
まず、管理サーバ20の選択部23が、トークンのペアを選択する(ステップ101)。本実施の形態では、選択部23が選択するトークンのペアは複数である。
そして、送受信部21は、トークンのペアのデータを端末装置10に対し送信し、端末装置10では、送受信部11がトークンのペアのデータを受信する(ステップ102)。
さらに、表示部12が、これらのトークンのペアを表示し、ユーザに提示する(ステップ103)。これに対し、ユーザは、提示されたそれぞれのトークンのペアに対し、関連度の評価をし、評価を入力する(ステップ104)。評価は、入力部13が受け付ける。
図5は、複数のトークンのペアを表示し、これに対し、ユーザが、関連度の評価を入力した場合を示した図である。
ここでは、図示するように、複数のトークンのペアとして、word1とword2の組が表示されている。そして、score(1~10)の欄に、ユーザが評価を、1~10の数値として入力した場合を示している。この場合、scoreは、数値が大きくなるほど関連性が大きく、数値が小さくなるほど関連度が小さいと評価されたことを意味する。
本実施の形態では、関連度を基に、トークンのペアをグループ化し、図5に示すように、グループに含まれる複数のトークンのペアをまとめてユーザに対し提示する。この場合、関連度が同程度の複数のトークンのペアを、ユーザに対し同時に提示する。また、提示する数は、ユーザが、同時に検討可能なペア数が望ましい。
なおここでは、ユーザは、1~10の連続値のうち何れかの数値を入力したが、連続値でなく離散値であってもよい。また、スライダー等による入力でもよい。
ここでは、図示するように、複数のトークンのペアとして、word1とword2の組が表示されている。そして、score(1~10)の欄に、ユーザが評価を、1~10の数値として入力した場合を示している。この場合、scoreは、数値が大きくなるほど関連性が大きく、数値が小さくなるほど関連度が小さいと評価されたことを意味する。
本実施の形態では、関連度を基に、トークンのペアをグループ化し、図5に示すように、グループに含まれる複数のトークンのペアをまとめてユーザに対し提示する。この場合、関連度が同程度の複数のトークンのペアを、ユーザに対し同時に提示する。また、提示する数は、ユーザが、同時に検討可能なペア数が望ましい。
なおここでは、ユーザは、1~10の連続値のうち何れかの数値を入力したが、連続値でなく離散値であってもよい。また、スライダー等による入力でもよい。
図4に戻り、評価の結果は、送受信部11を介し、管理サーバ20に送信し、送受信部21が取得する(ステップ105)。
次に、算出部24が、ユーザの評価から、提示したトークンのペアの関連度を算出する(ステップ106)。
そして、算出部24は、記憶部26に算出したトークンのペアの関連度を保存する(ステップ107)。
次に、算出部24が、ユーザの評価から、提示したトークンのペアの関連度を算出する(ステップ106)。
そして、算出部24は、記憶部26に算出したトークンのペアの関連度を保存する(ステップ107)。
次に、終了判定部25は、一連の処理を終了するか否かを判定する(ステップ108)。終了判定部25は、上述したように、算出したトークンのペアの関連度が収束した場合、一連の処理を終了する。言い換えれば、一連の処理は、算出したトークンのペアの関連度が収束するまで繰り返し行われる。具体的には、終了判定部25は、算出部24が算出したトークンのペアの関連度と、記憶部26に保存されたトークンのペアの関連度との差を求める。即ち、算出部24が算出したトークンのペアの関連度と、算出部24が前回算出したトークンのペアの関連度との差を求める。そして、この差が、予め定められた規定値以下のペアの数をカウントする。このとき、このペアの数が規定値以上であれば、関連度が収束したと考えられるため、終了判定部25は、処理を終了する旨の判定を行う。なお、ペアの数ではなく、予め定められた規定値以下のペアの割合であってもよい。
対して、このペアの数が規定値未満であれば、処理を終了しない旨の判定を行う。
対して、このペアの数が規定値未満であれば、処理を終了しない旨の判定を行う。
そして、終了判定部25が、終了する旨の判定を行った場合(ステップ108でYes)、処理を終了する。
一方、終了判定部25が、終了しない旨の判定を行った場合(ステップ108でNo)、ステップ101に戻る。そして、ステップ101~ステップ108の処理が再度行われる。つまり、算出した関連度が同程度のトークンのペアについて再度選択する(ステップ101)。さらに、再度選択したトークンのペアをユーザに対し再度提示する(ステップ103)。これに対し、ユーザは、提示されたそれぞれのトークンのペアに対し、関連度の評価をし、評価を入力する(ステップ104)。これにより、再度提示したトークンのペアに対するユーザによる関連度の受け付けを再度する。またさらに、再度受け付けた評価から提示したトークンのペアの関連度の算出を再度する(ステップ106)。
一方、終了判定部25が、終了しない旨の判定を行った場合(ステップ108でNo)、ステップ101に戻る。そして、ステップ101~ステップ108の処理が再度行われる。つまり、算出した関連度が同程度のトークンのペアについて再度選択する(ステップ101)。さらに、再度選択したトークンのペアをユーザに対し再度提示する(ステップ103)。これに対し、ユーザは、提示されたそれぞれのトークンのペアに対し、関連度の評価をし、評価を入力する(ステップ104)。これにより、再度提示したトークンのペアに対するユーザによる関連度の受け付けを再度する。またさらに、再度受け付けた評価から提示したトークンのペアの関連度の算出を再度する(ステップ106)。
このとき、ステップ101で再選択を行う際には、関連度が同程度のトークンのペアを同じグループとする。これは、算出した関連度が同程度のトークンのペアについて、同じグループとなるように、選択をする、と言うこともできる。
また、ステップ103では、関連度が大きいトークンのペアが含まれるグループについて、優先的に提示するようにする。
また、ステップ103では、関連度が大きいトークンのペアが含まれるグループについて、優先的に提示するようにする。
図6(a)~(d)は、トークンのペアのグループ分けの方法、およびグループ分けしたトークンのペアを提示する方法について説明した図である。
ここでは、トークンのペアをグループ分けするのに、例えば、トークンのペアを関連度順に並べ、既定の提示数ごとに分割することで行う。
図6(a)は、トークンのペアを関連度順に並べた場合を示している。ここでは、図中上方にあるほど、算出部24が算出した優先度が大きく、下方にあるほど算出部24が算出した優先度が小さいことを示している。
そして、トークンのペアを提示数として、例えば、10を設定し、トークンのペアを10個ずつに区切り、グループ分けを行う。ここでは、例えば、グループA、グループB、グループC、グループD、グループE … にグループ分けされたことを示している。
ここでは、トークンのペアをグループ分けするのに、例えば、トークンのペアを関連度順に並べ、既定の提示数ごとに分割することで行う。
図6(a)は、トークンのペアを関連度順に並べた場合を示している。ここでは、図中上方にあるほど、算出部24が算出した優先度が大きく、下方にあるほど算出部24が算出した優先度が小さいことを示している。
そして、トークンのペアを提示数として、例えば、10を設定し、トークンのペアを10個ずつに区切り、グループ分けを行う。ここでは、例えば、グループA、グループB、グループC、グループD、グループE … にグループ分けされたことを示している。
さらに、グループ分けしたトークンのペアを提示するときは、関連度が大きいトークンのペアが含まれるグループについて、優先的に提示するようにする。この場合、図6(b)~(c)に示した順で表示される。即ち、グループA、グループB、グループCの順に表示が行われる。ただし、この表示は、グループ分けされた全てのグループに対し行う必要はなく、規定値以上の関連度を有するグループだけとすることができる。この場合、例えば、グループD以降は、表示を行わない。関連度が小さいと算出されたトークンのペアについては、重要度が低く、このようなトークンのペアが属するグループについて表示せず、ユーザの評価も受けないことで、ユーザの負担を軽減することができる。
なお、ユーザが評価を行う際の、レイアウトの影響を低減するために、レイアウトをランダマイズしてもよい。これにより、同じトークンのペアであっても再度表示される際には、異なる位置に表示されることになり、レイアウトの影響を低減することができる。
なお、ユーザが複数回評価したり、複数人のユーザが評価をするなど、同じトークンのペアでも評価が複数存在する場合がある。この場合は、評価の平均を用いることができる。または、最新の回答であるほど重視する重みづけ平均を用いてもよい。
なお、ユーザが複数回評価したり、複数人のユーザが評価をするなど、同じトークンのペアでも評価が複数存在する場合がある。この場合は、評価の平均を用いることができる。または、最新の回答であるほど重視する重みづけ平均を用いてもよい。
一般的に、トークンのペアをユーザに提示し、ユーザの評価を取得することで、トークンのペアの関連度を求める方法は、以下の問題点がある。
あるトークンのペアに対して、ユーザが、関連度を数値で評価することは、必ずしも容易ではない。つまり、関連度には一般に客観的な測定法がない。また、必ずしも基準となる値が存在するわけではない。そのため、トークンのペアの関連度を、ユーザが評価するのが難しい場合がある。その結果、個々のトークンのペアに対する関連度の数値による回答は、ユーザにとって困難な作業となり、評価を取得する際の収集効率の観点から問題がある。
あるトークンのペアに対して、ユーザが、関連度を数値で評価することは、必ずしも容易ではない。つまり、関連度には一般に客観的な測定法がない。また、必ずしも基準となる値が存在するわけではない。そのため、トークンのペアの関連度を、ユーザが評価するのが難しい場合がある。その結果、個々のトークンのペアに対する関連度の数値による回答は、ユーザにとって困難な作業となり、評価を取得する際の収集効率の観点から問題がある。
また、同様の理由で、ユーザの評価に揺らぎが生じるため、評価の精度にも問題がある。即ち、ユーザによって、同じトークンのペアに対する回答が異なる場合や、さらには同じユーザでも、状況によって同じトークンのペアに対する回答が異なる場合が生じる。特に、関連度の大きいトークンのペアについては、より精度の高い評価を取得することが望まれるが、従来の方法では困難である。
一方、第1の実施形態では、ユーザは、複数のトークンのペアの関連度を同時に見て、検討および評価を行うことで、相対評価が可能となる。これにより、評価を判断する際の曖昧さが低減される。またこれにより、ユーザの評価の作業がより容易となり、同じ時間でより多くの評価を収集することができる。
また、ユーザは、限られた複数のトークンのペアに対して相対評価を行うため、異なる複数ペア間で回答基準が変わる場合がある。これは、得られる関連度の精度の悪化の要因となる。そこで、本実施の形態では、得られた評価から関連度を再度算出し、これに基づいて同程度の関連度を持つペアを集め、グループとしてユーザに再提示する。これにより、複数のトークンのペア間での関連度の差異が補正される。さらに、同程度と算出された関連度を有するトークンのペアの関連度を、ユーザが再度評価することで、より微妙な関連度の差異についての情報が収集できる。
さらに、上記処理の繰り返しにより、ユーザには作業の初期よりも後期の方がより微妙な関連度の差異についての判断が求められるようになる。これはユーザの評価作業の習熟に沿って評価の難易度が上昇する機構となっており、トークンのペアの関連度について、より効率的に情報を収集することができる。
なお、トークンのペアの関連度を求める方法として、文法などのルールを利用する方法があるが、この方法は、くだけた表現のテキストには対応できないため、適用範囲が限定的である。
また、他の方法として、分散表現を利用する方法がある。この方法は、適用範囲が広く自動的な手法であるため、大量のトークンのペアの関係をカバーすることが容易である。一方、得られる関連度の精度は、上述したユーザが評価する方法よりも精度が低くなりやすい。
また、他の方法として、分散表現を利用する方法がある。この方法は、適用範囲が広く自動的な手法であるため、大量のトークンのペアの関係をカバーすることが容易である。一方、得られる関連度の精度は、上述したユーザが評価する方法よりも精度が低くなりやすい。
<変形例1>
次に、第1の実施形態の変形例として、変形例1を説明する。
変形例1では、ユーザによる関連度の評価は、まとめて提示されたトークンのペアを、関連度に応じ並べ換えた後の順序とする。
図7は、変形例1でのユーザによる関連度の評価の入力方法を示した図である。
ここでは、図示するように、複数のトークンのペアとして、P1~P5が表示されている。そして、「関連度が大きい順に並べて下さい」のメッセージMe1が表示され、ユーザは、トークンのペアP1~P5を、関連度が大きい順に並べ換える。この並べ換えは、例えば、マウス等の入力デバイスを使用し、ドラッグ&ドロップのような操作をすることで行うことができる。
そして、トークンのペアP1~P5を、関連度が大きい順に並べ換えた後に、完了ボタンBt1を押下することで、評価が確定する。
次に、第1の実施形態の変形例として、変形例1を説明する。
変形例1では、ユーザによる関連度の評価は、まとめて提示されたトークンのペアを、関連度に応じ並べ換えた後の順序とする。
図7は、変形例1でのユーザによる関連度の評価の入力方法を示した図である。
ここでは、図示するように、複数のトークンのペアとして、P1~P5が表示されている。そして、「関連度が大きい順に並べて下さい」のメッセージMe1が表示され、ユーザは、トークンのペアP1~P5を、関連度が大きい順に並べ換える。この並べ換えは、例えば、マウス等の入力デバイスを使用し、ドラッグ&ドロップのような操作をすることで行うことができる。
そして、トークンのペアP1~P5を、関連度が大きい順に並べ換えた後に、完了ボタンBt1を押下することで、評価が確定する。
変形例1では、算出部24は、まず、ユーザが評価したトークンのペアの順序から、トークンのペアの関連度の大小関係を求める。そして、算出部24は、関連度の大小関係からトークンのペアの関連度を算出する。
この大小関係は、並び換えの結果として、連続するトークンのペアの大小関係のみを使用してもよいし、順序から言える全ての大小関係を使用してもよい。または、その中間として、部分的に連続するトークンのペアについて、順序から言える全ての大小関係を使用してもよい。例えば、トークンのペアP1~P5について、P1>P2>P3>P4>P5の順序になった場合、連続する2つの並び順からP1>P2、 P2>P3、 P3>P4、 P4>P5、 P1>P3、P2>P4、 P3>P5の大小関係が得られる。
この大小関係は、並び換えの結果として、連続するトークンのペアの大小関係のみを使用してもよいし、順序から言える全ての大小関係を使用してもよい。または、その中間として、部分的に連続するトークンのペアについて、順序から言える全ての大小関係を使用してもよい。例えば、トークンのペアP1~P5について、P1>P2>P3>P4>P5の順序になった場合、連続する2つの並び順からP1>P2、 P2>P3、 P3>P4、 P4>P5、 P1>P3、P2>P4、 P3>P5の大小関係が得られる。
なお、関連度の大小関係から関連度を算出するには、大小関係から、既存の方法によりトークンのペアの勝率を算出することで行うことができる。または、関連度の大小関係から、以下の数1式に示すBradley-Terry Modelに基づいて算出したペアの強さ(βi)を、関連度とすることができる。
変形例1では、ユーザは、図5で示したように、関連度を数値で回答するのではなく、比較結果のみを評価する。複数のトークンのペアについて、どれがより関連度が大きいか、あるいは小さいかだけを判断すればよいため、トークンのペアの関連度について、さらに効率的に情報を収集することができる。
[第2の実施形態]
次に、情報処理システム1の第2の実施形態について説明する。第2の実施形態では、トークンのペアを予め準備する際に、トークンのペアを自動生成する。
次に、情報処理システム1の第2の実施形態について説明する。第2の実施形態では、トークンのペアを予め準備する際に、トークンのペアを自動生成する。
図8は、第2の実施形態の情報処理システム1の機能構成例について説明したブロック図である。
図示する情報処理システム1の機能構成例は、図3に示した第1の実施形態の機能構成例に比較して、管理サーバ20に、ペア生成部27が加わる点で異なり、他は同様である。
ペア生成部27は、トークンのペアを、自動生成する機能を有する。ペア生成部27は、フレーズ区切り部271、分散表現算出部272、ノイズ除去部273、クラスタリング部274、ピボット抽出部275、周辺ペア算出部276、およびピボットペア算出部277を備える。
図示する情報処理システム1の機能構成例は、図3に示した第1の実施形態の機能構成例に比較して、管理サーバ20に、ペア生成部27が加わる点で異なり、他は同様である。
ペア生成部27は、トークンのペアを、自動生成する機能を有する。ペア生成部27は、フレーズ区切り部271、分散表現算出部272、ノイズ除去部273、クラスタリング部274、ピボット抽出部275、周辺ペア算出部276、およびピボットペア算出部277を備える。
上述した第1の実施形態では、トークンのペアについては、予め準備し、記憶部26に予め保存しておく必要がある。しかしながら、トークンのペアについて、管理サーバ20の管理者等が予め準備するのは、多大な時間と負担を要する。
さらに、一般に、あるシステムにおいて利用されるトークンには大量の種別が存在する。例えば、トークンが単語である場合、トークンは、複合語を含めて十数万個が利用される場合も少なくない。そして、関連度を算出するトークンのペアの個数は、トークンの個数の2乗となる。このように大量のトークンのペアについて、全てユーザに評価を求めるのは非効率的である。つまり、一般に、ランダムに選択したトークンのペアの関連度は小さいことが多く、このようなトークンのペアについて、ユーザに評価を求めるのは非効率的となる。よって、より効率的に評価を収集するためには、事前に関連度が大きいと予想されるトークンのペアを収集しておくことが望ましい。
そこで、第2の実施形態では、入力されたテキストを基に、以下に説明するように、分散表現に基づき、選択の対象となるトークンのペアを予め作成する。これにより、関連度が大きいと予想されるトークンのペアを、自動生成する。なお、「分散表現」は、単語埋め込みとも呼ばれ、単語等のトークンを高次元の実数ベクトルで表現する技術である。トークンが単語の場合、分散表現では、近い意味の単語は、近いベクトルとなることが期待できる。
図9は、トークンのペアを、自動生成する方法について説明したフローチャートである。
まず、送受信部21が、テキストを取得する(ステップ201)。このテキストは、例えば、管理サーバ20の管理者が入力する。また、テキストは、トークンのペアの関連度を求めたい言語から構成された文章であれば、特に限られるものではない。例えば、書籍、新聞記事などの文章である。
まず、送受信部21が、テキストを取得する(ステップ201)。このテキストは、例えば、管理サーバ20の管理者が入力する。また、テキストは、トークンのペアの関連度を求めたい言語から構成された文章であれば、特に限られるものではない。例えば、書籍、新聞記事などの文章である。
次に、ペア生成部27のフレーズ区切り部271が、取得したテキストをトークンのペアの候補となる単位に区切る(ステップ202)。なおここでは、トークンが単語である場合について説明する。
さらに、分散表現算出部272が、フレーズ区切り部271により区切られた単語の分散表現を算出する(ステップ203)。
また、ノイズ除去部273が、既定のルールにより不要な単語を除去する。即ち、ノイズとなる単語を除去する(ステップ204)。
さらに、分散表現算出部272が、フレーズ区切り部271により区切られた単語の分散表現を算出する(ステップ203)。
また、ノイズ除去部273が、既定のルールにより不要な単語を除去する。即ち、ノイズとなる単語を除去する(ステップ204)。
次に、クラスタリング部274が、分散表現に基づき複数のトークンをクラスタリングしてクラスタを作成する(ステップ205)。クラスタリングは、分散表現空間上の距離を利用し、k-means法やGaussian Mixture Modelによる手法などで行うことができる。またこの場合、距離は、例えば、分散表現空間中のユークリッド距離を用いることができる。なお、分散表現空間中のコサイン類似度を用いてもよい。
図10は、複数のトークンをクラスタリングし、クラスタを作成した様子を示す概念図である。
ここでは、実線または点線の「〇」で表されたトークンTをクラスタリングし、クラスタCとして、クラスタC1~C3を作成した場合を示している。
ここでは、クラスタC1は、8個のトークンTから構成される。同様に、クラスタC2は、8個のトークンTから構成され、クラスタC3は、6個のトークンTから構成される。なお、クラスタT0として表したクラスタTは、何れのクラスタCにも属していないが、このようにクラスタリングされないトークンTが存在してもかまわない。
ここでは、実線または点線の「〇」で表されたトークンTをクラスタリングし、クラスタCとして、クラスタC1~C3を作成した場合を示している。
ここでは、クラスタC1は、8個のトークンTから構成される。同様に、クラスタC2は、8個のトークンTから構成され、クラスタC3は、6個のトークンTから構成される。なお、クラスタT0として表したクラスタTは、何れのクラスタCにも属していないが、このようにクラスタリングされないトークンTが存在してもかまわない。
図9に戻り、次に、ピボット抽出部275が、各クラスタCの中に属するトークンの中から代表となるトークンTである代表トークンTpを選択する(ステップ206)。そして、代表トークンTpをピボットとする。図10では、この代表トークンTpを点線の「〇」で表している。ピボットとなる代表トークンTpは、あるクラスタCに含まれるトークンTのうち、分散表現空間中で最も中心に近いものとすることができる。ただし、これに限られるものではなく、例えば、管理者等により、意図的にピボットとなる代表トークンTp選択してもよい。
さらに、周辺ペア算出部276が、クラスタCの中に属するトークンTの間でペアを作成する(ステップ207)。具体的には、各クラスタCについて、ピボットとなる代表トークンTpを起点に、周辺のトークンTに対しペアを作成する。図10では、ペアとなるトークンTを実線にて図示している。この場合、例えば、図示するように、代表トークンTpと周辺のトークンTとの間でペアを作成する。これは、代表トークンTpと各クラスタCに属する残りのトークンTとの間でペアを作成する、と言うこともできる。
また、図示するように、周辺のトークンT同士でペアを作成してもよい。ただし、トークンTと実線により表されるグラフの連結成分が1つとなるようにする。このようなトークンTのペアを作成するには、あるトークンTと分散表現空間上で近傍となるトークンTとのペア選択を再帰的に繰り返すような手法により行うことができる。これにより、各クラスタC内で木構造の連結が得られる。そして、クラスタC内の全てのトークンT同士が経路を持つグラフが得られる。その結果、より多くのトークンTをカバーしたトークンTのペアを生成することができる。
そして、ピボットペア算出部277が、クラスタC間の代表トークンTp同士でさらにペアを作成する(ステップ208)。代表トークンTp同士のペアを作成するには、分散表現空間上の距離について、代表トークンTpのみについて最小全域木を算出するなどの手法により行うことができる。なおこのとき、管理者等により指定するペアを挿入してもよい。これにより、多くの単語がカバーされ、かつ、すべてのトークンT同士が経路を持つグラフであるペアのセットが得られる。
第2の実施形態では、トークンTのペアを自動生成し、トークンTのペアを予め準備することができる。そして、準備したトークンのペアを使用して、図4で説明した処理を行う。ここで準備したトークンのペアは、分散表現に基づき、選択されたものであり、関連度が大きいと予想されるトークンのペアとなっている。よって、より効率的に評価を収集することができる。
<変形例2>
次に、第2の実施形態の変形例として、変形例2を説明する。
変形例2では、算出したトークンTのペアの関連度を基に分散表現を追学習し、追学習した分散表現を基にトークンTのペアについての選択を再度行う。
具体的には、算出部24が算出したトークンTのペアの関連度を基に、ペア生成部27が、分散表現を追学習する。そして、ペア生成部27は、追学習後の分散表現を基に、図10で示した方法で、トークンのペアを生成する。そして、生成したトークンのペアを使用して、図4で説明した処理を行う。
これにより、ユーザが評価したトークンのペアの関連度と、自動的な手法によって得られる関連度とを組み合わせることで、両者の長所を両立し、トークンのペアの関連度を求めるのに、より好適なトークンのペアをユーザに提示することができる。
次に、第2の実施形態の変形例として、変形例2を説明する。
変形例2では、算出したトークンTのペアの関連度を基に分散表現を追学習し、追学習した分散表現を基にトークンTのペアについての選択を再度行う。
具体的には、算出部24が算出したトークンTのペアの関連度を基に、ペア生成部27が、分散表現を追学習する。そして、ペア生成部27は、追学習後の分散表現を基に、図10で示した方法で、トークンのペアを生成する。そして、生成したトークンのペアを使用して、図4で説明した処理を行う。
これにより、ユーザが評価したトークンのペアの関連度と、自動的な手法によって得られる関連度とを組み合わせることで、両者の長所を両立し、トークンのペアの関連度を求めるのに、より好適なトークンのペアをユーザに提示することができる。
<変形例3>
次に、第2の実施形態の変形例として、変形例3を説明する。
変形例3では、上述した情報処理システム1は、検索機能を有する。この場合、情報処理システム1は、例えば、端末装置10でユーザから検索の指示をさらに受け付け、その検索の結果を、端末装置10に表示する。このとき、管理サーバ20では、ユーザにより入力された単語等のトークンに対し、算出したトークンのペアの関連度を基に、検索結果を決定する。具体的には、管理サーバ20は、図4に示した方法により算出され、記憶部26に保存されているトークンのペアの関連度を参照する。そして、ユーザにより入力されたトークンに対し、より関連度が大きいトークンを抽出する。さらに、ユーザにより入力されたトークンと抽出したトークンの双方に関連するコンテンツを検索結果としてユーザに対し表示する。つまり、ユーザにより入力されたトークンとこれと関連度が大きいトークンとのand検索を行う。なおこのとき、入力されたトークンと抽出されたトークンとが、より関連度が大きい場合についての検索結果を、より上位に位置するように表示する。
これにより、ユーザは、例えば、1つの単語等のトークンを入力することで、このトークンに関連するトークンとのand検索が行われる。その結果、ユーザの目的に、より合致した検索結果を提示することができる。
次に、第2の実施形態の変形例として、変形例3を説明する。
変形例3では、上述した情報処理システム1は、検索機能を有する。この場合、情報処理システム1は、例えば、端末装置10でユーザから検索の指示をさらに受け付け、その検索の結果を、端末装置10に表示する。このとき、管理サーバ20では、ユーザにより入力された単語等のトークンに対し、算出したトークンのペアの関連度を基に、検索結果を決定する。具体的には、管理サーバ20は、図4に示した方法により算出され、記憶部26に保存されているトークンのペアの関連度を参照する。そして、ユーザにより入力されたトークンに対し、より関連度が大きいトークンを抽出する。さらに、ユーザにより入力されたトークンと抽出したトークンの双方に関連するコンテンツを検索結果としてユーザに対し表示する。つまり、ユーザにより入力されたトークンとこれと関連度が大きいトークンとのand検索を行う。なおこのとき、入力されたトークンと抽出されたトークンとが、より関連度が大きい場合についての検索結果を、より上位に位置するように表示する。
これにより、ユーザは、例えば、1つの単語等のトークンを入力することで、このトークンに関連するトークンとのand検索が行われる。その結果、ユーザの目的に、より合致した検索結果を提示することができる。
<プログラムの説明>
ここで、以上説明を行った本実施の形態における管理サーバ20が行う処理は、例えば、アプリケーションソフトウェア等のプログラムとして用意される。
ここで、以上説明を行った本実施の形態における管理サーバ20が行う処理は、例えば、アプリケーションソフトウェア等のプログラムとして用意される。
よって、本実施の形態で管理サーバ20が行う処理は、コンピュータに、トークンのペアの選択をする機能と、選択したトークンのペアをユーザに対し提示したときに、提示したトークンのペアに対するユーザによる関連度の評価の受け付けをする機能と、受け付けた評価から、提示したトークンのペアの関連度の算出をする機能と、算出した関連度が同程度のトークンのペアについて再度選択をし、再度選択したトークンのペアをユーザに対し提示したときに、提示したトークンのペアに対するユーザによる関連度の評価の受け付けを再度し、再度受け付けた評価から提示したトークンのペアの関連度の算出を再度する機能と、を実現させるためのプログラムとして捉えることができる。
なお、本実施の形態を実現するプログラムは、通信手段により提供することはもちろん、CD-ROM等の記録媒体に格納して提供することも可能である。
以上、本実施の形態について説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、種々の変更または改良を加えたものも、本発明の技術的範囲に含まれることは、特許請求の範囲の記載から明らかである。
1…情報処理システム、10…端末装置、20…管理サーバ、21…送受信部、22…認証部、23…選択部、24…算出部、25…終了判定部、26…記憶部
Claims (14)
- プロセッサを備え、
前記プロセッサは、
トークンのペアの選択をし、
選択したトークンのペアをユーザに対し提示したときに、提示したトークンのペアに対するユーザによる関連度の評価の受け付けをし、
受け付けた前記評価から、提示したトークンのペアの関連度の算出をし、
算出した関連度が同程度のトークンのペアについて再度選択をし、再度選択したトークンのペアをユーザに対し提示したときに、提示したトークンのペアに対するユーザによる関連度の評価の受け付けを再度し、再度受け付けた当該評価から提示したトークンのペアの関連度の算出を再度する
ことを特徴とする情報処理装置。 - 前記プロセッサは、関連度を基に、トークンのペアをグループ化し、グループに含まれるトークンのペアをまとめてユーザに対し提示したときの、トークンのペアに対するユーザによる関連度の評価の受け付けをすることを特徴とする請求項1に記載の情報処理装置。
- 前記プロセッサは、関連度が同程度のトークンのペアを同じグループとすることを特徴とする請求項2に記載の情報処理装置。
- 前記プロセッサは、関連度が大きいトークンのペアが含まれるグループについて、優先的に提示することを特徴とする請求項3に記載の情報処理装置。
- 前記ユーザによる関連度の評価は、まとめて提示されたトークンのペアを、関連度に応じ並べ換えた後の順序であることを特徴とする請求項2に記載の情報処理装置。
- 前記プロセッサは、分散表現に基づき、選択の対象となるトークンのペアを予め作成することを特徴とする請求項1に記載の情報処理装置。
- 前記プロセッサは、分散表現に基づき複数のトークンをクラスタリングしてクラスタを作成し、各クラスタの中に属するトークンの間でペアを作成することを特徴とする請求項6に記載の情報処理装置。
- 前記プロセッサは、各クラスタの中に属するトークンの中から代表となるトークンである代表トークンを選択し、当該代表トークンと各クラスタに属する残りのトークンとの間でペアを作成することを特徴とする請求項7に記載の情報処理装置。
- 前記プロセッサは、代表トークン同士でさらにペアを作成することを特徴とする請求項8に記載の情報処理装置。
- 前記プロセッサは、算出したトークンのペアの関連度を基に分散表現を追学習し、追学習した分散表現を基にトークンのペアについての前記選択を再度行うことを特徴とする請求項6に記載の情報処理装置。
- 前記プロセッサは、算出したトークンのペアの関連度を基に、トークンのペアについての、前記選択、前記受け付けおよび前記算出を、算出したトークンのペアの関連度が収束するまで繰り返し行うことを特徴とする請求項1に記載の情報処理装置。
- トークンのペアの関連度を算出する情報処理装置と、
前記情報処理装置が選択したトークンのペアをユーザに対し提示する提示装置と、
を備え、
前記情報処理装置は、プロセッサを備え、
前記プロセッサは、
トークンのペアの選択をし、
選択したトークンのペアをユーザに対し提示したときに、提示したトークンのペアに対するユーザによる関連度の評価の受け付けをし、
受け付けた前記評価から、提示したトークンのペアの関連度の算出をし、
算出した関連度が同程度のトークンのペアについて再度選択をし、再度選択したトークンのペアをユーザに対し提示したときに、提示したトークンのペアに対するユーザによる関連度の評価の受け付けを再度し、再度受け付けた当該評価から提示したトークンのペアの関連度の算出を再度する
ことを特徴とする情報処理システム。 - 前記情報処理装置の前記プロセッサは、
ユーザから検索の指示をさらに受け付け、
算出したトークンのペアの関連度を基に、検索結果を決定することを特徴とする請求項12に記載の情報処理システム。 - コンピュータに、
トークンのペアの選択をする機能と、
選択したトークンのペアをユーザに対し提示したときに、提示したトークンのペアに対するユーザによる関連度の評価の受け付けをする機能と、
受け付けた前記評価から、提示したトークンのペアの関連度の算出をする機能と、
算出した関連度が同程度のトークンのペアについて再度選択をし、再度選択したトークンのペアをユーザに対し提示したときに、提示したトークンのペアに対するユーザによる関連度の評価の受け付けを再度し、再度受け付けた当該評価から提示したトークンのペアの関連度の算出を再度する機能と、
を実現させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020167489A JP2022059725A (ja) | 2020-10-02 | 2020-10-02 | 情報処理装置、情報処理システムおよびプログラム |
US17/336,446 US20220108071A1 (en) | 2020-10-02 | 2021-06-02 | Information processing device, information processing system, and non-transitory computer readable medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020167489A JP2022059725A (ja) | 2020-10-02 | 2020-10-02 | 情報処理装置、情報処理システムおよびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022059725A true JP2022059725A (ja) | 2022-04-14 |
Family
ID=80932431
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020167489A Pending JP2022059725A (ja) | 2020-10-02 | 2020-10-02 | 情報処理装置、情報処理システムおよびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20220108071A1 (ja) |
JP (1) | JP2022059725A (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12038961B2 (en) * | 2022-06-20 | 2024-07-16 | Pinterest, Inc. | Determining topics for taxonomies |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002373237A (ja) * | 2001-06-13 | 2002-12-26 | Mindshare Inc | 多元的アンケートの質問を自動生成するとともにアンケート結果を一元的に評価する方法およびシステム |
US8572084B2 (en) * | 2009-07-28 | 2013-10-29 | Fti Consulting, Inc. | System and method for displaying relationships between electronically stored information to provide classification suggestions via nearest neighbor |
US9613317B2 (en) * | 2013-03-29 | 2017-04-04 | International Business Machines Corporation | Justifying passage machine learning for question and answer systems |
US9946763B2 (en) * | 2014-11-05 | 2018-04-17 | International Business Machines Corporation | Evaluating passages in a question answering computer system |
-
2020
- 2020-10-02 JP JP2020167489A patent/JP2022059725A/ja active Pending
-
2021
- 2021-06-02 US US17/336,446 patent/US20220108071A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20220108071A1 (en) | 2022-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110795542B (zh) | 对话方法及相关装置、设备 | |
CN111552880B (zh) | 基于知识图谱的数据处理方法、装置、介质及电子设备 | |
JP2019504413A (ja) | 絵文字を提案するためのシステムおよび方法 | |
CN112346567A (zh) | 基于ai的虚拟交互模型生成方法、装置及计算机设备 | |
CN109360550A (zh) | 语音交互系统的测试方法、装置、设备和存储介质 | |
US20180075014A1 (en) | Conversational artificial intelligence system and method using advanced language elements | |
US10564795B2 (en) | Control method, processing apparatus, and non-transitory computer-readable recording medium | |
WO2019220518A1 (ja) | 回答プログラム、回答方法および回答装置 | |
JP6818706B2 (ja) | 情報提供装置、情報提供方法、およびプログラム | |
CN111767393A (zh) | 一种文本核心内容提取方法及装置 | |
CN108920543A (zh) | 查询和交互的方法及装置、计算机装置、存储介质 | |
JP2018010610A (ja) | エージェント装置、対話システム、対話方法及びプログラム | |
JP2020013492A (ja) | 情報処理装置、システム、方法およびプログラム | |
WO2023040516A1 (zh) | 一种事件整合方法、装置、电子设备、计算机可读存储介质及计算机程序产品 | |
EP2849095A1 (en) | Information processing device, information processing method, and program | |
CN112685550A (zh) | 智能问答方法、装置、服务器及计算机可读存储介质 | |
CN117591639A (zh) | 一种问题答复方法、装置、设备及介质 | |
JP5545489B2 (ja) | 学習システム、シミュレーション装置、および学習方法 | |
US7440931B1 (en) | Method and apparatus for analyzing thought system | |
JP2022059725A (ja) | 情報処理装置、情報処理システムおよびプログラム | |
JPWO2019167281A1 (ja) | 応答処理プログラム、応答処理方法、応答処理装置および応答処理システム | |
CN112567364B (zh) | 知识信息创建支援装置 | |
CN112470216B (zh) | 语音应用平台 | |
JP3677006B2 (ja) | 情報処理装置およびその方法 | |
KR102710905B1 (ko) | 문서를 요약하는 장치, 방법 및 컴퓨터 프로그램 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230919 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240726 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240820 |