JP2010044637A - データ処理装置、方法、及びプログラム - Google Patents
データ処理装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2010044637A JP2010044637A JP2008208916A JP2008208916A JP2010044637A JP 2010044637 A JP2010044637 A JP 2010044637A JP 2008208916 A JP2008208916 A JP 2008208916A JP 2008208916 A JP2008208916 A JP 2008208916A JP 2010044637 A JP2010044637 A JP 2010044637A
- Authority
- JP
- Japan
- Prior art keywords
- node
- route
- directed graph
- nodes
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
Abstract
【課題】データ入力の利便性を向上させる技術を提供する。
【解決手段】データ入力装置10は、有向グラフのノード又はエッジに与えられた重みを保持する第1重み保持部44と、特定の2以上のエッジ、3以上のノード、又は連続しない2つのノードの組合せについて、第1重み保持部44に保持されている重みとは異なる重みが与えられる場合に、その重みを保持する第2重み保持部45と、組合せに含まれるノード又はエッジを全て含む対象経路に含まれるノードのうち、そのノードに至る経路として対象経路以外の経路が存在するノードを複製し、そのノードに至る経路が対象経路に含まれるノードと、含まれないノードとが区別されるように、有向グラフを変形する有向グラフ変形部42と、変形された有向グラフにおける第1ノードから第2ノードへ至る経路を、重みに基づいて評価する評価部43と、を備える。
【選択図】図14
【解決手段】データ入力装置10は、有向グラフのノード又はエッジに与えられた重みを保持する第1重み保持部44と、特定の2以上のエッジ、3以上のノード、又は連続しない2つのノードの組合せについて、第1重み保持部44に保持されている重みとは異なる重みが与えられる場合に、その重みを保持する第2重み保持部45と、組合せに含まれるノード又はエッジを全て含む対象経路に含まれるノードのうち、そのノードに至る経路として対象経路以外の経路が存在するノードを複製し、そのノードに至る経路が対象経路に含まれるノードと、含まれないノードとが区別されるように、有向グラフを変形する有向グラフ変形部42と、変形された有向グラフにおける第1ノードから第2ノードへ至る経路を、重みに基づいて評価する評価部43と、を備える。
【選択図】図14
Description
本発明は、データ処理技術に関し、特に、重み付き有向グラフの経路を評価するデータ処理装置、方法、及びプログラムに関する。
日本語の文字列を入力する際に、ユーザが入力した読みを漢字に変換して入力するプログラムが広く利用されている(例えば、特許文献1参照)。
特開2004−139402号公報
本発明者らは、ユーザから入力された文章の読みを漢字交じりの文章に変換する際の精度を向上させるために、漢字変換辞書を参照して、入力された文章の読みから漢字交じりの単語により構成される有向グラフを作成し、有向グラフのノード、すなわち単語と、ノード間のエッジ、すなわち単語のつながり方に対してスコアを付与し、重み付き有向グラフの最適経路問題を解くことにより最適な変換候補を選択する技術を開発している。
より早く、より精確な変換候補を選択するために、重み付き有向グラフの最適経路をより効率良く計算する技術が求められている。
本発明はこうした状況に鑑みてなされたものであり、その目的は、データ入力の利便性を向上させる技術を提供することにある。
本発明のある態様は、データ処理装置に関する。このデータ処理装置は、有向グラフのノード又は2つのノードの間のエッジに与えられた重みを保持する第1重み保持部と、特定の2以上のエッジ、3以上のノード、又は連続しない2つのノードの組合せについて、前記組合せに含まれるノード又はエッジのうち少なくとも1つに、前記第1重み保持部に保持されている重みとは異なる重みが与えられる場合に、前記組合せに含まれるノード又はエッジに与えられた重みを保持する第2重み保持部と、前記有向グラフに前記組合せが含まれる場合、前記組合せに含まれるノード又はエッジを全て含む対象経路に含まれるノードのうち、そのノードに至る経路として前記対象経路以外の経路が存在するノードを複製し、そのノードに至る経路が前記対象経路に含まれるノードと、そのノードに至る経路が前記対象経路に含まれないノードとが区別されるように、前記有向グラフを変形する有向グラフ変形部と、前記有向グラフ変形部により変形された有向グラフにおける第1ノードから第2ノードへ至る経路を、前記第1重み保持部及び前記第2重み保持部から読み出された重みに基づいて評価する評価部と、を備えることを特徴とする。
前記有向グラフ変形部は、複製したノードのうち一方のノードについては、そのノードに至るエッジのうち前記対象経路に含まれないエッジを削除し、他方のノードについては、そのノードに至るエッジのうち前記対象経路に含まれるエッジを削除してもよい。
前記第1重み保持部に保持されている重みとは異なる重みは、前記対象経路の最後のノードに与えられてもよい。
前記有向グラフ変形部は、前記組合せに含まれるノード又はエッジを全て含む対象経路に含まれるノードを複製し、そのノードに至る経路が前記対象経路に含まれるノードと、そのノードに至る経路が前記対象経路に含まれるが、そのノードに続く経路が前記対象経路に含まれないノードと、そのノードに至る経路が前記対象経路に含まれないノードとが区別されるように、前記有向グラフを変形してもよい。
前記有向グラフ変形部は、前記組合せに含まれるノード又はエッジを全て含む対象経路に含まれるノードを複製し、そのノードに続く経路が前記対象経路に含まれるノードと、そのノードに続く経路が前記対象経路に含まれるが、そのノードに至る経路が前記対象経路に含まれないノードと、そのノードに続く経路が前記対象経路に含まれないノードとが区別されるように、前記有向グラフを変形してもよい。
本発明の別の態様は、データ処理方法に関する。このデータ処理方法は、有向グラフを取得するステップと、前記有向グラフのノード又は2つのノードの間のエッジに重みを付与するステップと、特定の2以上のエッジ、3以上のノード、又は連続しない2つのノードの組合せについて、前記組合せに含まれるノード又はエッジのうち少なくとも1つに、前記付与するステップで与えられた重みとは異なる重みが与えられている場合、前記有向グラフに前記組合せが含まれるか否かを判定するステップと、前記有向グラフに前記組合せが含まれる場合、前記組合せに含まれるノード又はエッジを全て含む対象経路に含まれるノードのうち、そのノードに至る経路として前記対象経路以外の経路が存在するノードを複製し、そのノードに至る経路が前記対象経路に含まれるノードと、そのノードに至る経路が前記対象経路に含まれないノードとが区別されるように、前記有向グラフを変形するステップと、経路が追加された有向グラフにおける第1ノードから第2ノードへ至る経路を、前記重みに基づいて評価するステップと、を備えることを特徴とする。
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システムなどの間で変換したものもまた、本発明の態様として有効である。
本発明によれば、データ入力の利便性を向上させる技術を提供することができる。
有向グラフのノードや、2つのノードの間のエッジに重みが与えられた重み付き有向グラフの最適経路問題は、乗物の乗換案内、ワークフローの管理、自然言語処理など、多くの分野で重要な技術的意義を有している。重み付き有向グラフの最適経路問題を解くためのアルゴリズムに、ビタビ(Viterbi)アルゴリズムがある。
図1は、有向グラフの例を示す。以降の説明を分かりやすくするために、図1に示した有向グラフは、出発駅である第1ノードXから到着駅である第2ノードYへ至る電車の経路を示し、ノードA〜Jは乗継駅を示すものとする。
図2は、図1に示した有向グラフの各ノード及び各エッジに与えられた重みを示す。この例では、各エッジの重みとして、駅間の所要時間が、各ノードの重みとして、乗継駅における乗り継ぎに要する時間が、それぞれ与えられている。ここで、出発駅Xから到着駅Yへ至る経路のうち、最も所要時間の短い最短経路を判別する方法について説明する。
図3は、図2に示した重み付き有向グラフの最適経路をビタビアルゴリズムにより解く方法について説明するための図である。ビタビアルゴリズムでは、出発駅に近いノードから順に、出発駅から各乗継駅へ至る最短経路を段階的に求めていく。
まず、出発駅であるX駅からA駅へ至る経路は1通りしかないので、X駅からA駅へ至る最短経路が決定される。この最短経路を通過したときのX駅からA駅までの所要時間は、「4」分である。同様に、X駅からB駅へ至る経路も1通りしかないので、X駅からB駅へ至る最短経路が決定され、所要時間は「3」分となる。
次に、X駅からC駅へ至る最短経路を算出する。C駅を終点とするエッジは、A−CとB−Cの2本ある。X駅からA駅を経由してC駅へ至る経路の最短所要時間は、X駅からA駅までの最短所要時間「4」分に、A駅での乗り継ぎ時間「1」分と、A駅からC駅までの所要時間「8」分とを加算した「13」分である。同様に、X駅からB駅を経由してC駅へ至る経路の最短所要時間は、X駅からB駅までの最短所要時間「3」分に、B駅での乗り継ぎ時間「2」分と、B駅からC駅までの所要時間「6」分を加算した「11」分である。したがって、X駅からC駅へ至る最短経路は、B駅を経由する経路であり、その所要時間は「11」分である。
X駅からD駅へ至る最短経路は、D駅を終点とするエッジが1本しかないので、そのエッジの始点であるA駅を経由する経路であり、その所要時間は「11」分である。同様に、X駅からE駅へ至る最短経路は、B駅を経由する経路であり、その所要時間は「12」分である。
このように、ある駅までの最短経路は、そのノードを終点とする1以上のエッジの中から、それぞれのエッジの始点の駅までの最短所要時間と、エッジの始点の駅における乗り継ぎ時間と、エッジの始点の駅から当該駅までの所要時間とを加算した所要時間が最も短いものを選択することにより得られる。
同様にして、到着駅Yまでの全ての駅について最短経路と最短所要時間を求めることができる。最後に、到着駅Yを終点とするエッジの中から最短経路を与えるエッジを求めると、直前の駅はJ駅となるので、J駅、H駅、G駅、E駅、B駅、X駅と直前の駅を順に辿っていくことにより、最短経路が判明する。
以上のような方法により、X駅からY駅へ至る全ての経路の所要時間を算出して最短経路を判定する方法に比べて、計算量を飛躍的に低減することができる。特に、漢字変換や形態素解析などの自然言語処理の分野では、文章の長さが長くなると、文章を構成する単語の候補、すなわちノードの数が膨大になるので、このような方法を採用することによる計算量の低減が不可欠である。
ビタビアルゴリズムは、あるノードまでの最適経路は、そのノードの直前のノードまでの最適経路とは独立に決定可能であることを前提としている。つまり、あるノードまでの最適経路は、過去に遡ることなく、直前の最適結果に基づいて決まる場合に適用可能である。
ところが、現実には、ある特定のエッジやノードの組合せに対して、例外的な条件が設定される場合がある。例えば、D駅からG駅を経由してH駅へ至る路線には急行電車が運行されており、D駅からG駅を経由してH駅へ至る経路の所要時間は、D駅からG駅への所要時間とG駅からH駅への所要時間との単純な合計よりも短くなるという条件があるとする。このような例外的な条件は、図2に示した重み付き有向グラフでは表現できない。
このように、連続する2つのノードの組合せに対して、ノードやエッジの重みが与えられるだけでなく、3以上のノードの組合せなどに対して、例外的な重みが与えられる場合、その組合せに対する例外的な重みを設定可能とするために、その組合せを通過する経路を別に設ける必要がある。
図4は、連続する3つのノードの組合せに対して例外的な重みが与えられることを考慮して生成された有向グラフの例を示す。図2の有向グラフでは、例えばFへ至る経路として、A−C−Fという経路とB−C−Fという経路は区別しない。これは、Cまでは最短経路を通っていることが前提となっており、Aを経由したかBを経由したかは、Fまでの最短経路を決定する際に考慮しないからである。これに対し、図4の有向グラフでは、A−C−Fという経路とB−C−Fという経路を別の経路として表現するために、C及びFのノードを2つ設けている。これにより、A及びCを経由してFへ至る経路と、B及びCを経由してFへ至る経路を区別し、異なる重みを与えることができる。同様にして、他のノードについても、2つ前のノードが異なる経路を区別するために複数のノードを設けている。
図5は、連続する4つのノードの組合せに対して例外的な重みが与えられることを考慮して生成された有向グラフの例を示す。図4の有向グラフでは、A−C−F−HとB−C−F−Hという経路は区別していなかったが、図5の有向グラフでは、3つ前のノードが異なっている経路も区別するので、A−C−F−Hに対応するHとB−C−F−Hに対応するHを設けている。
図4及び図5に示した有向グラフでは、連続する3以上のノードの組合せに対して与えられた例外的な重みを考慮して最適経路を求めることができるが、例外的な重みが与えられる組合せに、連続するいくつのノードが含まれるかが予め分かっていないと、有向グラフを生成することができない。例えば、連続する3つのノードの組合せを考慮すると、図5に示した有向グラフを生成すればよいが、連続する4つのノードの組合せに対して新たに例外的な重みが与えられた場合は、図5に示した有向グラフを生成し直す必要がある。
また、自然言語処理に応用する場合など、元の有向グラフの規模が大きい場合には、追加すべき経路の数が膨大になり、計算量が飛躍的に増大して、計算速度が低下するおそれがある。
本実施の形態では、重み付き有向グラフにおいて、2以上のエッジ、3以上のノード、連続しない2つのノードなどの組合せに対して例外的な重みが与えられる場合に、効率良く最適経路を求める技術を提案する。
図6は、図1に示した有向グラフにおいて、連続する3つのノードの組合せに対して例外的な重みが与えられた場合に、ビタビアルゴリズムにより最適経路を求めるための有向グラフを示す。図6では、D−G−Hという連続する3つのノードの組合せに対して例外的な重みを与えるために、D−G−Hという経路を有向グラフにもう1つ追加している。具体的には、D−G−Hという組合せの最初のノードDから分岐して、途中のノードGを経由し、最後のノードHまで至る経路を複製する。
図7は、図6に示した有向グラフの各エッジ及びノードに重みを付与し、ビタビアルゴリズムにより最適経路を求めた様子を示す。図7では、D駅−G駅−H駅という経路には急行列車が運行されているため、D駅−G駅−H駅という経路を通過する場合には、D駅−G駅間の所要時間が4分から1分に短縮される例が示されている。図中、2つあるノードHのうち、上側のノードHは例外的な重みを考慮せずにノードHまでの最適経路を求めた結果を示し、下側のノードHは経路D−G−Hに対して与えられた例外的な重みを考慮した場合のノードHまでの最適経路を求めた結果を示す。
図8は、2つのエッジの組合せに対して与えられた例外的な重みを考慮した有向グラフを示す。図8では、エッジA−DとエッジH−Jの組合せに対して例外的な重みが与えられている。例えば、A駅からD駅までの路線とH駅からJ駅までの路線が同一の主体により運営されているために、これらの路線を使うと割引料金が適用されるような例が想定される。この場合、エッジA−DとエッジH−Jを含む経路を元の有向グラフから抽出し、抽出した経路を有向グラフに追加する。これにより、エッジA−DとエッジA−Jの両方を通過する経路を有向グラフの中に新たに設け、その経路に対して例外的な重みを付与することができる。
図9は、連続しない2つのノードの組合せに対して与えられた例外的な重みを考慮した有向グラフを示す。図9では、ノードDとノードHの組合せに対して例外的な重みが与えられている。例えば、ひらがなで入力された文章を漢字仮名交じり文に変換するときに、「鳥」という単語が先行する場合は「とぶ」というひらがなに対応する変換候補として「飛ぶ」という候補のスコアを高くするなどといった共起用例が想定される。この場合、ノードDとノードHの間の経路を元の有向グラフから抽出し、抽出した経路を有向グラフに追加する。これにより、ノードDの存在を考慮しないノードHのスコアと、ノードDが先行する場合のノードHのスコアを区別して表現することができる。
このようにして、重み付き有向グラフに、例外的な重みが与えられた経路を追加することにより、計算量の増大を最小限に抑えつつ、直前のノードではなく過去のノードまで遡って参照しなければならないような例外的な条件をも考慮して最適経路を求めることができる。
上記の例では、例外的な重みが与えられた経路を有向グラフに追加したが、この場合、実質的に同じ経路が有向グラフ中に重複して存在することになる。最適経路を探索する際には、このことは問題にならないが、2番目以降の経路を算出する際に、実質的には同じ経路であるのに別の経路として報告してしまうことがあるため、n−ベスト探索のアルゴリズムが破綻するおそれがある。したがって、n−ベスト探索を行う際には、ノード又はエッジを追加しても、経路の総数を変えない経路の組み替えが必要となる。このようなアルゴリズムについて更に説明する。
有向グラフを変形する際に、述語論理に基づいたプログラミング言語等を利用してもよい。この場合、例外的な重みは、ノードに対する条件要請として与えられる。この条件要請は、ノードを引数として真偽値又は別の述語を返す手続き(述語)の形で与えられる。
例えば、図10に示した重み付き有向グラフにおいて、「A−C−E」という連続する3つのノードの組合せに対して例外的な重みが与えられるものとする。このとき、「「A−C−E」というノードの並び」を検出するために、「「A−C−E」の順に並んでいるノードであるか」という条件要請が与えられる。この条件要請は、ノードE以外のノードでは成立し得ないので、ノードE以外のノードは、この条件要請に対して偽を返す。ノードEは、この条件要請に対して、「先行するノードは「A−C」の順に並んでいるノードであるか」という別の述語を返す。ノードEに先行するノードのうち、ノードDはこの条件要請を満たさないので偽を返す。ノードCはこの条件要請を満たし、この条件要請に対して、「先行するノードは「A」の順に並んでいるノードであるか」という述語を返す。ノードCに先行するノードのうち、ノードAはこの条件要請を満たし、ノードBは満たさない。
ノードEが返した条件要請を満たしたノードCは複製され、ノードC自身が返した述語の条件要請を満たすCと、満たさないCに区別される。すなわち、「A」が先行するC(C1)と「A」が先行しないC(C2)が区別される。このとき、ノードC1については、ノードC1に至るエッジのうち「A」が先行しない「B−C1」が削除され、ノードC2については、「A」が先行する「A−C2」が削除される。さらに、同様にして、「A−C」が先行するE(E1)と「A−C」が先行しないE(E2)が区別される。このときも、ノードE1については、「A−C」が先行しない「D−E1」が削除される。ノードE2については、「C2−E」も「D−E」も「A−C」が先行しないので削除されない。こうして組み替えられた有向グラフを図11に示す。
このようなアルゴリズムにより、経路の総数を変えることなく、「A−C」が先行するEと「A−C」が先行しないEを区別して、異なる重みを与えることができる。この場合、「A−C−E」という連続する3つのノードの組合せに対して与えられる例外的な重みは、組合せの最後のノード「E2」の重みとして与えられる。
このようなアルゴリズムによれば、「A−?−E」(ただし、?は任意の1ノード)という組合せに例外的な重みが与えられる場合も適切に有向グラフを組み替えることができる。この場合、ノードEが「「A−?−E」の順に並んでいるノードであるか」という条件要請に対して、「先行するノードは「A−?」の順に並んでいるノードであるか」という述語を返し、この条件要請に対しては、Eに先行する任意のノードが「先行するノードは「A」の順に並んでいるノードであるか」という述語を返すようにすればよい。
また、「A−*−E」(ただし、*は任意の数のノード)という組合せに例外的な重みが与えられる場合、ノードEが「「A−*−E」の順に並んでいるノードであるか」という条件要請に対して、「先行するノードは「A−*」の順に並んでいるノードであるか」という述語を返し、この条件要請に対しては、「A」以外の任意のノードが「先行するノードは「A−*」の順に並んでいるノードであるか」という述語を再び返すようにすればよい。このようなワイルドカードを用いた条件要請は、結果として無限長の組合せを生み出すため、最初に一定の長さ限界を設定する従来の方法では扱うことができないが、本実施の形態の技術によれば、適切に扱うことができる。
上記の例では、先行する経路が条件を満たすか否かによってノードを区別したが、さらに、後続の経路が条件を満たすか否かによってノードを区別してもよい。すなわち、経路を順方向に解析する場合は、(1)先行する経路も後続の経路も条件を満たすノード、(2)先行する経路は条件を満たすが、後続の経路が条件を満たさないノード、(3)先行する経路が条件を満たさないノードの3つに区別し、経路を逆方向に解析する場合は、(1)後続の経路も先行する経路も条件を満たすノード、(2)後続の経路は条件を満たすが、先行する経路が条件を満たさないノード、(3)後続の経路が条件を満たさないノードの3つに区別する。
例えば、上記の例と同様に、図10に示した有向グラフにおいて、「A−C−E」という連続する3つのノードの組合せに対して例外的な重みが与えられる場合について考える。有向グラフの先頭から順方向に解析すると、まず、後続の経路がC−Eを含むA(A1)と、後続の経路がC−Eを含まないA(A2)が区別される。さらに、Aが先行しEが後続するC(C1)と、Aが先行するがEが後続しないC(C2)と、Aが先行しないC(C3)が区別される。さらに、A−Cが先行するE(E1)と、A−Cが先行しないE(E3)が区別される。こうして組み替えられた有向グラフを図12に示す。同様に、有向グラフの最後から逆方向に解析して組み替えられた有向グラフを図13に示す。
このようなアルゴリズムにより、経路の総数を変えることなく、「A−C−E」という経路を他の経路と分離して、異なる重みを与えることができる。この場合、「A−C−E」という連続する3つのノードの組合せに対して与えられる例外的な重みは、組合せに含まれる任意のノード又はエッジに与えられてもよい。
図14は、実施の形態に係るデータ入力装置10の構成を示す。データ入力装置10は、ユーザインタフェイス20、想起ユニット30、データ処理装置の一例である選択ユニット40を備える。想起ユニット30は、入力データ受付部32、有向グラフ生成部34、及び辞書保持部36を含む。選択ユニット40は、有向グラフ取得部41、有向グラフ変形部42、評価部43、第1重み保持部44、第2重み保持部45、及び有向グラフ保持部46を含む。これらの構成は、ハードウエアコンポーネントでいえば、任意のコンピュータのCPU、メモリ、メモリにロードされたプログラムなどによって実現されるが、ここではそれらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックがハードウエアのみ、ソフトウエアのみ、またはそれらの組合せによっていろいろな形で実現できることは、当業者には理解されるところである。
入力データ受付部32は、ユーザがユーザインタフェイス20を介して入力した文章の読みのデータを受け付ける。有向グラフ生成部34は、入力データ受付部32が受け付けた読みのデータから、辞書保持部36に保持された辞書データを参照して、漢字仮名交じりの文章の有向グラフを生成する。辞書保持部36は、単語の読み、品詞、対応する漢字があれば漢字を対応付けて格納した辞書を保持する。
図15は、有向グラフ生成部34が生成した有向グラフの例を示す。図15は、「じんこうのあさがおせんせいのないしんそざいとして」という読みが入力されたときに生成される有向グラフの例を示す。実際には、もっと多くのノードを含むグラフが生成されることになるが、ここでは説明の簡略化のために省略している。
有向グラフ生成部34は、入力された文章の読みの先頭から順に、「じ」、「じん」、「じんこ」、「じんこう」という読みで辞書を検索し、辞書に読みが登録されている単語を抽出してその単語の品詞を取得し、対応する漢字があれば漢字に変換して、ノードを生成する。この例では、「じんこう」という読みで、「人工」、「人口」、「沈香」、「神幸」の4つの名詞が登録されているため、それぞれに対応する4つのノードが生成される。つづいて、次の「の」という読みで、助詞の「の」が登録されているため、それに対応するノードが生成される。このようにして、先頭から順に単語を抽出してノードを生成していく。
ノードの重みとして、一般的な文章における単語の使用頻度に基づいたスコアが用いられてもよい。また、ユーザの変換履歴が反映されるように、ユーザが使用した単語のスコアを増加させてもよい。また、エッジの重みとして、一般的な文章における単語同士のつながり方の使用頻度に基づいたスコアが用いられてもよい。一般的な文章における品詞同士のつながり方の妥当性に基づいてスコアが与えられてもよい。
いったん有向グラフが生成されれば、あとは前述した最適経路問題を解けば、最適な変換候補を選択することができる。以降は、説明を分かりやすくするために、前述した電車の経路を示す有向グラフの例に戻って説明を続ける。
第1重み保持部44は、有向グラフのノード又は2つのノードの間のエッジに与えられた重みを保持する。図16は、第1重み保持部44の内部データの例を示す。第1重み保持部44には、エッジ欄70、重み欄71、ノード欄72、重み欄73が設けられており、エッジに与えられた重みと、ノードに与えられた重みが保持される。ノードやエッジの重みは、有向グラフが生成される際に与えられてもよい。この場合、ノードやエッジの重みは、辞書保持部36などに保持されていてもよい。
第2重み保持部45は、2以上のエッジ、3以上のノード、又は連続しない2つのノードの組合せに対して、第1重み保持部44に保持されているそれぞれのノード又はエッジに与えられた重みから算出される重みとは異なる重みが与えられる場合に、その組合せに与えられた重みを保持する。図17は、第2重み保持部45の内部データの例を示す。第2重み保持部45には、組合せ欄74、重み欄75が設けられており、ノードやエッジの組合せに対して例外的に与えられた重みが保持される。
有向グラフ取得部41は、有向グラフ生成部34により生成された有向グラフを取得する。有向グラフ保持部46は、有向グラフ取得部41が取得した有向グラフを保持する。図18は、有向グラフ保持部46の内部データの例を示す。有向グラフ保持部46には、ノード欄80、重み欄81、入力エッジ欄82、出力エッジ欄83、及び最適経路欄84が設けられている。ノード欄80には、有向グラフを構成するノードを識別する情報が格納される。重み欄81には、ノードに与えられた重みが格納される。入力エッジ欄82は、始点欄85と重み欄86の組を複数含み、該当ノードを終点とするエッジの始点と、そのエッジの重みが格納される。出力エッジ欄83は、終点欄87と重み欄88を複数含み、該当ノードを始点とするエッジの終点と、そのエッジの重みが格納される。前述したように、それぞれの重み欄には、有向グラフ生成部34が有向グラフを生成したときに該当するノードやエッジの重みが格納されてもよいし、有向グラフ取得部41が有向グラフ生成部34から有向グラフを取得して有向グラフ保持部46に格納するときに第1重み保持部44を参照して該当するノードやエッジの重みを格納してもよい。最適経路欄84は、始点欄89及び重み欄90を含み、評価部43により選択された該当ノードまでの最適経路の直接先行ノードと、該当ノードまでの最適経路の重みが格納される。
有向グラフ変形部42は、有向グラフ保持部46に保持された有向グラフに、第2重み保持部45に例外的な重みが保持されたノード又はエッジの組合せが含まれる場合、その組合せに含まれるノード又はエッジを経由する経路と、それ以外の経路とが区別されるように、有向グラフを変形する。有向グラフを変形するアルゴリズムは、上述した通りである。
評価部43は、有向グラフ変形部42により経路を追加された有向グラフにおける第1ノードから第2ノードへ至る経路を、第1重み保持部44及び第2重み保持部45から読み出された重みに基づいて評価する。評価部43は、第1ノードから第2ノードへ至る複数の経路の中から、重みに基づいて最適な経路を選択する。
評価部43は、図3で説明したように、ビタビアルゴリズムに基づき、第1ノードから第2ノードへ至る経路に含まれるそれぞれのノードについて、第1ノードに近いノードから順に、第1ノードからそのノードへ至る最適な経路を重みに基づいて選択していくことにより、第1ノードから第2ノードへ至る最適な経路を選択する。
評価部43は、第1ノードからあるノードへ至る最適な経路を選択する際に、該当ノードを終点とする1以上のエッジの中から、それぞれのエッジに与えられた重みと、第1ノードからそれぞれのエッジの始点のノードへ至る最適な経路の重みとに基づいて、第1ノードから該当ノードへ至る最適な経路を与えるエッジを選択する。そして、第1ノードから選択されたエッジの始点のノードへ至る最適な経路の重みと、選択されたエッジ又は該当ノードに与えられた重みに基づいて、第1ノードから該当ノードへ至る最適な経路の重みを算出する。経路の重みは、例えば、その経路に含まれるエッジとノードに与えられた重みを加算したものであってもよい。また、その他の算術式により重みが算出されてもよい。
本実施の形態の方法によれば、有向グラフを生成した後であっても、例外的な重みが与えられたエッジやノードの組合せを有向グラフに追加することができるので、柔軟に条件を設定することができる。また、例外的な条件が与えられる場合であっても、ビタビアルゴリズムにより最適経路を求めることができるので、計算量や計算時間を大幅に軽減することができる。経路の変形は、有向グラフ生成部34が有向グラフを生成している途中に行ってもよいし、評価部43が経路の重みを評価している途中に行ってもよい。
以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
10 データ入力装置、20 ユーザインタフェイス、30 想起ユニット、32 入力データ受付部、34 有向グラフ生成部、36 辞書保持部、40 選択ユニット、41 有向グラフ取得部、42 有向グラフ変形部、43 評価部、44 第1重み保持部、45 第2重み保持部、46 有向グラフ保持部。
Claims (7)
- 有向グラフのノード又は2つのノードの間のエッジに与えられた重みを保持する第1重み保持部と、
特定の2以上のエッジ、3以上のノード、又は連続しない2つのノードの組合せについて、前記組合せに含まれるノード又はエッジのうち少なくとも1つに、前記第1重み保持部に保持されている重みとは異なる重みが与えられる場合に、前記組合せに含まれるノード又はエッジに与えられた重みを保持する第2重み保持部と、
前記有向グラフに前記組合せが含まれる場合、前記組合せに含まれるノード又はエッジを全て含む対象経路に含まれるノードのうち、そのノードに至る経路として前記対象経路以外の経路が存在するノードを複製し、そのノードに至る経路が前記対象経路に含まれるノードと、そのノードに至る経路が前記対象経路に含まれないノードとが区別されるように、前記有向グラフを変形する有向グラフ変形部と、
前記有向グラフ変形部により変形された有向グラフにおける第1ノードから第2ノードへ至る経路を、前記第1重み保持部及び前記第2重み保持部から読み出された重みに基づいて評価する評価部と、
を備えることを特徴とするデータ処理装置。 - 前記有向グラフ変形部は、複製したノードのうち一方のノードについては、そのノードに至るエッジのうち前記対象経路に含まれないエッジを削除し、他方のノードについては、そのノードに至るエッジのうち前記対象経路に含まれるエッジを削除することを特徴とする請求項1に記載のデータ処理装置。
- 前記第1重み保持部に保持されている重みとは異なる重みは、前記対象経路の最後のノードに与えられることを特徴とする請求項1又は2に記載のデータ処理装置。
- 前記有向グラフ変形部は、前記組合せに含まれるノード又はエッジを全て含む対象経路に含まれるノードを複製し、そのノードに至る経路が前記対象経路に含まれるノードと、そのノードに至る経路が前記対象経路に含まれるが、そのノードに続く経路が前記対象経路に含まれないノードと、そのノードに至る経路が前記対象経路に含まれないノードとが区別されるように、前記有向グラフを変形することを特徴とする請求項1又は2に記載のデータ処理装置。
- 前記有向グラフ変形部は、前記組合せに含まれるノード又はエッジを全て含む対象経路に含まれるノードを複製し、そのノードに続く経路が前記対象経路に含まれるノードと、そのノードに続く経路が前記対象経路に含まれるが、そのノードに至る経路が前記対象経路に含まれないノードと、そのノードに続く経路が前記対象経路に含まれないノードとが区別されるように、前記有向グラフを変形することを特徴とする請求項1又は2に記載のデータ処理装置。
- 有向グラフを取得するステップと、
前記有向グラフのノード又は2つのノードの間のエッジに重みを付与するステップと、
特定の2以上のエッジ、3以上のノード、又は連続しない2つのノードの組合せについて、前記組合せに含まれるノード又はエッジのうち少なくとも1つに、前記付与するステップで与えられた重みとは異なる重みが与えられている場合、前記有向グラフに前記組合せが含まれるか否かを判定するステップと、
前記有向グラフに前記組合せが含まれる場合、前記組合せに含まれるノード又はエッジを全て含む対象経路に含まれるノードのうち、そのノードに至る経路として前記対象経路以外の経路が存在するノードを複製し、そのノードに至る経路が前記対象経路に含まれるノードと、そのノードに至る経路が前記対象経路に含まれないノードとが区別されるように、前記有向グラフを変形するステップと、
経路が追加された有向グラフにおける第1ノードから第2ノードへ至る経路を、前記重みに基づいて評価するステップと、
を備えることを特徴とするデータ処理方法。 - 有向グラフを取得する機能と、
前記有向グラフのノード又は2つのノードの間のエッジに重みを付与する機能と、
特定の2以上のエッジ、3以上のノード、又は連続しない2つのノードの組合せについて、前記組合せに含まれるノード又はエッジのうち少なくとも1つに、前記付与する機能で与えられた重みとは異なる重みが与えられている場合、前記有向グラフに前記組合せが含まれるか否かを判定する機能と、
前記有向グラフに前記組合せが含まれる場合、前記組合せに含まれるノード又はエッジを全て含む対象経路に含まれるノードのうち、そのノードに至る経路として前記対象経路以外の経路が存在するノードを複製し、そのノードに至る経路が前記対象経路に含まれるノードと、そのノードに至る経路が前記対象経路に含まれないノードとが区別されるように、前記有向グラフを変形する機能と、
経路が追加された有向グラフにおける第1ノードから第2ノードへ至る経路を、前記重みに基づいて評価する機能と、
をコンピュータに実現させることを特徴とするデータ処理プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008208916A JP2010044637A (ja) | 2008-08-14 | 2008-08-14 | データ処理装置、方法、及びプログラム |
US12/540,730 US20100042397A1 (en) | 2008-08-14 | 2009-08-13 | Data processing apparatus and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008208916A JP2010044637A (ja) | 2008-08-14 | 2008-08-14 | データ処理装置、方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010044637A true JP2010044637A (ja) | 2010-02-25 |
Family
ID=41681863
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008208916A Pending JP2010044637A (ja) | 2008-08-14 | 2008-08-14 | データ処理装置、方法、及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20100042397A1 (ja) |
JP (1) | JP2010044637A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012194708A (ja) * | 2011-03-15 | 2012-10-11 | Fujitsu Ltd | 有向グラフ作成装置、有向グラフ作成方法、及び有向グラフ作成プログラム |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IL183898A (en) * | 2007-06-13 | 2014-07-31 | Dan Pal | Modular panel units for construction purposes |
US9672478B2 (en) | 2009-02-26 | 2017-06-06 | Oracle International Corporation | Techniques for semantic business policy composition |
US9400958B2 (en) * | 2010-06-30 | 2016-07-26 | Oracle International Corporation | Techniques for display of information related to policies |
US20120016661A1 (en) * | 2010-07-19 | 2012-01-19 | Eyal Pinkas | System, method and device for intelligent textual conversation system |
CN103034628B (zh) * | 2011-10-27 | 2015-12-02 | 微软技术许可有限责任公司 | 用于将语言项目规范化的功能装置 |
JP6524790B2 (ja) * | 2015-05-14 | 2019-06-05 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
US10664757B2 (en) * | 2015-09-16 | 2020-05-26 | International Business Machines Corporation | Cognitive operations based on empirically constructed knowledge graphs |
US10831691B1 (en) * | 2019-05-24 | 2020-11-10 | International Business Machines Corporation | Method for implementing processing elements in a chip card |
CN110794849B (zh) * | 2019-11-28 | 2023-07-25 | 广州视源电子科技股份有限公司 | 路径的处理方法、装置、机器人、计算机设备和存储介质 |
US11930026B1 (en) * | 2020-07-09 | 2024-03-12 | EJ2 Communications, Inc. | Automating interactions with web services |
CN114485705A (zh) * | 2022-01-12 | 2022-05-13 | 上海于万科技有限公司 | 一种基于路网地图的清扫路径确定方法及系统 |
CN114168198B (zh) * | 2022-02-10 | 2022-04-26 | 北京创新乐知网络技术有限公司 | 线上处理流程调整方法、系统及配置中心、服务端 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4864502A (en) * | 1987-10-07 | 1989-09-05 | Houghton Mifflin Company | Sentence analyzer |
WO2003038663A2 (en) * | 2001-10-29 | 2003-05-08 | British Telecommunications Public Limited Company | Machine translation |
EP1306775A1 (en) * | 2001-10-29 | 2003-05-02 | BRITISH TELECOMMUNICATIONS public limited company | Machine translation |
US6907431B2 (en) * | 2002-05-03 | 2005-06-14 | Hewlett-Packard Development Company, L.P. | Method for determining a logical structure of a document |
US7324981B2 (en) * | 2002-05-16 | 2008-01-29 | Microsoft Corporation | System and method of employing efficient operators for Bayesian network search |
US7249012B2 (en) * | 2002-11-20 | 2007-07-24 | Microsoft Corporation | Statistical method and apparatus for learning translation relationships among phrases |
US7320002B2 (en) * | 2004-03-25 | 2008-01-15 | Microsoft Corporation | Using tables to learn trees |
US7912717B1 (en) * | 2004-11-18 | 2011-03-22 | Albert Galick | Method for uncovering hidden Markov models |
US8706475B2 (en) * | 2005-01-10 | 2014-04-22 | Xerox Corporation | Method and apparatus for detecting a table of contents and reference determination |
US20070265826A1 (en) * | 2006-05-10 | 2007-11-15 | Stanley Chen | Systems and methods for fast and memory efficient machine translation using statistical integrated phase lattice |
US8060494B2 (en) * | 2007-12-07 | 2011-11-15 | Microsoft Corporation | Indexing and searching audio using text indexers |
-
2008
- 2008-08-14 JP JP2008208916A patent/JP2010044637A/ja active Pending
-
2009
- 2009-08-13 US US12/540,730 patent/US20100042397A1/en not_active Abandoned
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012194708A (ja) * | 2011-03-15 | 2012-10-11 | Fujitsu Ltd | 有向グラフ作成装置、有向グラフ作成方法、及び有向グラフ作成プログラム |
Also Published As
Publication number | Publication date |
---|---|
US20100042397A1 (en) | 2010-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2010044637A (ja) | データ処理装置、方法、及びプログラム | |
JP3930138B2 (ja) | 情報解析方法および情報解析プログラムを記憶した媒体 | |
CN104699763B (zh) | 多特征融合的文本相似性度量系统 | |
US10282419B2 (en) | Multi-domain natural language processing architecture | |
CN102063508B (zh) | 基于广义后缀树的中文搜索引擎模糊自动补全方法 | |
US10073827B2 (en) | Method and system to generate a process flow diagram | |
CN108595629B (zh) | 用于答案选择系统的数据处理方法及应用 | |
US20160314104A1 (en) | Methods and systems for efficient and accurate text extraction from unstructured documents | |
JPH07334368A (ja) | 知識ベースシステムおよび認識システム | |
CN110245349B (zh) | 一种句法依存分析方法、装置及一种电子设备 | |
CN110309511B (zh) | 基于共享表示的多任务语言分析系统及方法 | |
CN110555203A (zh) | 文本复述方法、装置、服务器及存储介质 | |
JP2022040026A (ja) | エンティティリンキング方法、装置、電子デバイス及び記憶媒体 | |
CN116304748B (zh) | 一种文本相似度计算方法、系统、设备及介质 | |
Sang et al. | Applying system combination to base noun phrase identification | |
CN110874536A (zh) | 语料质量评估模型生成方法和双语句对互译质量评估方法 | |
CN101470701A (zh) | 支持基于有限状态机的语义规则的文本分析器及其方法 | |
Khoufi et al. | Chunking Arabic texts using conditional random fields | |
JP4953440B2 (ja) | 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体 | |
JP4478042B2 (ja) | 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置 | |
CN114115878A (zh) | 一种工作流节点推荐方法及装置 | |
JP5506482B2 (ja) | 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム | |
JP2017041207A (ja) | 構造解析装置、方法、及びプログラム | |
CN111259159A (zh) | 数据挖掘方法、装置和计算机可读存储介质 | |
US20230281392A1 (en) | Computer-readable recording medium storing computer program, machine learning method, and natural language processing apparatus |