JP5934749B2 - ジャーナル生成のための方法及び装置 - Google Patents

ジャーナル生成のための方法及び装置 Download PDF

Info

Publication number
JP5934749B2
JP5934749B2 JP2014126827A JP2014126827A JP5934749B2 JP 5934749 B2 JP5934749 B2 JP 5934749B2 JP 2014126827 A JP2014126827 A JP 2014126827A JP 2014126827 A JP2014126827 A JP 2014126827A JP 5934749 B2 JP5934749 B2 JP 5934749B2
Authority
JP
Japan
Prior art keywords
journal
journal description
description data
source data
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014126827A
Other languages
English (en)
Other versions
JP2015011711A (ja
Inventor
振▲華▼ 董
振▲華▼ 董
弓 ▲張▼
弓 ▲張▼
▲リァン▼▲偉▼ 王
▲リァン▼▲偉▼ 王
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2015011711A publication Critical patent/JP2015011711A/ja
Application granted granted Critical
Publication of JP5934749B2 publication Critical patent/JP5934749B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Description

本発明は、情報処理技術の分野に関連し、特に、ジャーナル生成のための方法及び装置に関連する。
目下のところ、ジャーナルの自動生成を実施する方法は、手動により多数のジャーナル生成ルール及び翻訳テンプレートを書き、次いで、それらのジャーナル生成ルール及び翻訳テンプレートに従って、外部装置によって記録されたユーザアクティビティデータをテキスト記述情報に翻訳することである。通常は、ユーザアクティビティデータは、様々なソースに由来してよい。例えば、ユーザアクティビティデータは、グローバルポジショニングシステム(GPS)によって収集されたデータ、又は端末自体によって記録されるユーザ通話記録、等であってよい。ユーザアクティビティデータのソースが異なる場合に、異なるルール及び翻訳テンプレートが、ユーザアクティビティデータをテキスト記述情報に翻訳するために使用される。
従って、自動でジャーナルを生成するための既存の方法がジャーナル生成を実施するために使用される場合に、異なるソースからのユーザアクティビティデータは異なるルール及び翻訳テンプレートを必要とし、ルール及び翻訳テンプレートは手動により書かれる必要がある。結果として、新しいソースからのユーザアクティビティデータが現れる場合に、新しいタイプのユーザアクティビティデータは、既存のルール及び翻訳テンプレートを用いることによっては処理され得ない。これは、実際の使用において不十分な柔軟性の原因となる。
本発明の実施形態は、様々なソースからのデータに基づく自動ジャーナル生成を実施可能な、ジャーナル生成のための方法及びシステムを提供する。
上記の目標を達成するよう、本発明の実施形態は、以下の技術的解決法を採用する:
第1の態様は、
ソースデータセットと、該ソースデータセットに対応するジャーナル記述データセットとを取得するステップと、
アライメント確率セットを取得するよう、前記ソースデータセットにおける夫々のソースデータシーケンスと、前記ジャーナル記述データセットにおける夫々のジャーナル記述データシーケンスとの間のアライメント確率を計算するステップであって、前記ソースデータシーケンスがソースデータの少なくとも1つの片を含み、前記ジャーナル記述データシーケンスがジャーナル記述データの少なくとも1つの片を含むステップと、
発生確率セットを取得するよう、夫々のジャーナル記述データシーケンスが前記ジャーナルデータセットにおいて起こる確率を計算するステップと、
前記アライメント確率セット及び前記発生確率セットに従って且つ夫々のジャーナル記述データシーケンスから、翻訳されるべきソースデータシーケンスに対応する目標ジャーナル記述データシーケンスを決定するステップであって、前記翻訳されるべきソースデータシーケンスが前記ソースデータセットの中のソースデータシーケンスのいずれか1つであるステップと、
前記目標ジャーナル記述データシーケンスをジャーナル記述テキストに翻訳するステップと
を有するジャーナル生成方法を提供する。
第1の態様を参照して、第1の態様の第1実施様態において、当該方法は、
語彙的に処理されたソースデータを取得するよう、前記ソースデータセットにおける前記ソースデータに対して対応する語彙的プロセッシングを実行するステップと、
語彙的に処理されたジャーナル記述データを取得するよう、前記ジャーナル記述データセットにおける前記ジャーナル記述データに対して語彙的プロセッシングを実行するステップと
を更に有する。
第1の態様の第1実施様態を参照して、第1の態様の第2実施様態において、前記アライメント確率セットを取得するよう、前記ソースデータセットにおける夫々のソースデータシーケンスと、前記ジャーナル記述データセットにおける夫々のジャーナル記述データシーケンスとの間のアライメント確率を計算するステップであって、前記ソースデータシーケンスがソースデータの少なくとも1つの片を含み、前記ジャーナル記述データシーケンスがジャーナル記述データの少なくとも1つの片を含む前記ステップは、
同じプリセットされた時間期間内にソースデータセット及びジャーナル記述データセットから一対の並列テキストを構成するステップであって、一対の並列テキストが(S_all,T_all)として表現され、S_allは当該一対の並列テキストにおけるソースデータセットを表し、S_all=G1,・・・,Gmであり、G1はS_allにおける語彙的に処理されたソースデータの第1の片を表し、GmはS_allにおける語彙的に処理されたソースデータのm番目の片を表し、mは当該ソースデータセットにおける語彙的に処理されたソースデータの片の個数であり、T_allは当該一対の並列テキストにおけるジャーナル記述データセットを表し、T_all=A1,・・・,Anであり、A1はT_allにおける語彙的に処理されたジャーナル記述データの第1の片を表し、AnはT_allにおける語彙的に処理されたジャーナル記述データのn番目の片を表し、nは当該ジャーナル記述データセットにおける語彙的に処理されたジャーナル記述データの片の個数であるステップと、
アライメント確率セットを取得するよう、夫々のソースデータシーケンスと、夫々のソースデータシーケンスに夫々対応するジャーナル記述データシーケンスとの間のアライメント確率を計算するステップであって、前記ソースデータシーケンスがS_allにおける語彙的に処理されたソースデータの少なくとも1つの片を含み、前記ジャーナル記述データシーケンスがT_allにおける語彙的に処理されたジャーナル記述データの少なくとも1つの片を含むステップと
を有する。
第1の態様の第1実施様態を参照して、第1の態様の第3実施様態において、発生確率セットを取得するよう、夫々のジャーナル記述データシーケンスが前記ジャーナルデータセットにおいて起こる確率を計算する前記ステップは、
前記発生確率セットを取得するよう、夫々のジャーナル記述データシーケンスが前記ジャーナル記述データセットにおいて起こる前記確率を計算するステップであって、前記ジャーナル記述データシーケンスが、前記ジャーナル記述データセットにおける前記語彙的に処理されたジャーナル記述データの少なくとも1つの片を含むステップ
を有する。
第1の態様の前述の実施様態のいずれか1つを参照して、第1の態様の第4実施様態において、前記アライメント確率セット及び前記発生確率セットに従って且つ夫々のジャーナル記述データシーケンスから、翻訳されるべきソースデータシーケンスに対応する目標ジャーナル記述データシーケンスを決定する前記ステップは、
ソースデータシーケンスSとジャーナル記述データシーケンスTとの間のアライメント確率であるP(S|T)ごとに前記アライメント確率セットを探索し且つ前記ジャーナル記述データセットにおける前記ジャーナル記述データシーケンスTの発生確率であるP(T)ごとに前記発生確率セットを探索するステップと、
Sが前記翻訳されるべきソースデータシーケンスである場合に、Tが、P(S|T)×P(T)を最大値に到達させる前記目標ジャーナル記述データシーケンスであると決定するステップと
を有する。
第1の態様の前述の実施様態のいずれか1つを参照して、第1の態様の第5実施様態において、前記目標ジャーナル記述データシーケンスに従ってジャーナル記述テキストを生成する前記ステップは、
翻訳されるべき異なるタイプのデータシーケンスにおいて含まれる時間識別子に従って、前記翻訳されるべき異なるタイプのデータシーケンスに従って取得される夫々の目標ジャーナル記述データシーケンスから前記ジャーナル記述テキストを生成するステップ
を有する。
第2の態様は、
ソースデータセットと、該ソースデータセットに対応するジャーナル記述データセットとを取得するよう構成される取得モジュールと、
アライメント確率セットを取得するように、前記ソースデータセットにおける夫々のソースデータシーケンスと、前記ジャーナル記述データセットにおける夫々のジャーナル記述データシーケンスとの間のアライメント確率を計算するよう構成され、前記ソースデータシーケンスがソースデータの少なくとも1つの片を含み、前記ジャーナル記述データシーケンスがジャーナル記述データの少なくとも1つの片を含む計算モジュールであって、更に、発生確率セットを取得するように、夫々のジャーナル記述データシーケンスが前記ジャーナルデータセットにおいて起こる確率を計算するよう構成される前記計算モジュールと、
前記アライメント確率セット及び前記発生確率セットに従って且つ夫々のジャーナル記述データシーケンスから、前記ソースデータセットの中のソースデータシーケンスのいずれか1つである翻訳されるべきソースデータシーケンスに対応する目標ジャーナル記述データシーケンスを決定するよう構成される翻訳モジュールと、
前記目標ジャーナル記述データシーケンスに従ってジャーナル記述テキストを生成するよう構成されるジャーナル生成モジュールと
を有するジャーナル生成装置を提供する。
第2の態様を参照して、第2の態様の第1実施様態において、当該装置は、
語彙的に処理されたソースデータを取得するよう、前記ソースデータセットにおける前記ソースデータに対して対応する語彙的プロセッシングを実行するよう構成される語彙的プロセッシングモジュールを更に有し、
前記語彙的プロセッシングモジュールは更に、語彙的に処理されたジャーナル記述データを取得するよう、前記ジャーナル記述データセットにおける前記ジャーナル記述データに対して語彙的プロセッシングを実行するよう構成される。
第2の態様の第1実施様態を参照して、第2の態様の第2実施様態において、
前記計算モジュールは具体的に、同じプリセットされた時間期間内にソースデータセット及びジャーナル記述データセットから一対の並列テキストを構成
一対の並列テキストが(S_all,T_all)として表現され、S_allは当該一対の並列テキストにおけるソースデータセットを表し、S_all=G1,・・・,Gmであり、G1はS_allにおける語彙的に処理されたソースデータの第1の片を表し、GmはS_allにおける語彙的に処理されたソースデータのm番目の片を表し、mは当該ソースデータセットにおける語彙的に処理されたソースデータの片の個数であり、T_allは当該一対の並列テキストにおけるジャーナル記述データセットを表し、T_all=A1,・・・,Anであり、A1はT_allにおける語彙的に処理されたジャーナル記述データの第1の片を表し、AnはT_allにおける語彙的に処理されたジャーナル記述データのn番目の片を表し、nは当該ジャーナル記述データセットにおける語彙的に処理されたジャーナル記述データの片の個数であり、
アライメント確率セットを取得するよう、夫々のソースデータシーケンスと、夫々のソースデータシーケンスに夫々対応するジャーナル記述データシーケンスとの間のアライメント確率を計算するよう構成され、前記ソースデータシーケンスがS_allにおける語彙的に処理されたソースデータの少なくとも1つの片を含み、前記ジャーナル記述データシーケンスがT_allにおける語彙的に処理されたジャーナル記述データの少なくとも1つの片を含む。
第2の態様の第1実施様態を参照して、第2の態様の第3実施様態において、前記計算モジュールは具体的に、前記発生確率セットを取得するよう、夫々のジャーナル記述データシーケンスが前記ジャーナル記述データセットにおいて起こる確率を計算するよう構成され、前記ジャーナル記述データシーケンスが、前記ジャーナル記述データセットにおける前記語彙的に処理されたジャーナル記述データの少なくとも1つの片を含む。
第2の態様の前述の実施様態のいずれか1つを参照して、第2の態様の第4実施様態において、
前記翻訳モジュールは具体的に、ソースデータシーケンスSとジャーナル記述データシーケンスTとの間のアライメント確率であるP(S|T)ごとに前記アライメント確率セットを探索し且つ前記ジャーナル記述データセットにおける前記ジャーナル記述データシーケンスTの発生確率であるP(T)ごとに前記発生確率セットを探索し、
Sが前記翻訳されるべきソースデータシーケンスである場合に、Tが、P(S|T)×P(T)を最大値に到達させる前記目標ジャーナル記述データシーケンスであると決定するよう構成される。
第2の態様の前述の実施様態のいずれか1つを参照して、第2の態様の第5実施様態において、
前記ジャーナル生成モジュールは具体的に、翻訳されるべき異なるタイプのデータシーケンスにおいて含まれる時間識別子に従って、前記翻訳されるべき異なるタイプのデータシーケンスに従って取得される夫々の目標ジャーナル記述データシーケンスから前記ジャーナル記述テキストを生成するよう構成される。
第3の態様は、
プロセッサ及びメモリを有し、
前記メモリは、前記プロセッサによって実行される場合に該プロセッサに、
ースデータセットと、該ソースデータセットに対応するジャーナル記述データセットとを取得させ
ライメント確率セットを取得するように、前記ソースデータセットにおける夫々のソースデータシーケンスと、前記ジャーナル記述データセットにおける夫々のジャーナル記述データシーケンスとの間のアライメント確率を計算させ、前記ソースデータシーケンスがソースデータの少なくとも1つの片を含み、前記ジャーナル記述データシーケンスがジャーナル記述データの少なくとも1つの片を含み、
生確率セットを取得するように、夫々のジャーナル記述データシーケンスが前記ジャーナルデータセットにおいて起こる確率を計算させ
記アライメント確率セット及び前記発生確率セットに従って且つ夫々のジャーナル記述データシーケンスから、翻訳されるべきソースデータシーケンスに対応する目標ジャーナル記述データシーケンスを決定させ、前記翻訳されるべきソースデータシーケンスが前記ソースデータセットの中のソースデータシーケンスのいずれか1つであり、
記目標ジャーナル記述データシーケンスに従ってジャーナル記述テキストを生成させる
プログラムコードを記憶するよう構成される、
ジャーナル生成装置を提供する。
第3の態様を参照して、第3の態様の第1実施様態において、
前記プロセッサは更に、語彙的に処理されたソースデータを取得するよう、前記ソースデータセットにおける前記ソースデータに対して対応する語彙的プロセッシングを実行するよう構成され、
前記プロセッサは更に、語彙的に処理されたジャーナル記述データを取得するよう、前記ジャーナル記述データセットにおける前記ジャーナル記述データに対して語彙的プロセッシングを実行するよう構成される。
第3の態様の第1実施様態を参照して、第3の態様の第2実施様態において、
前記プロセッサは具体的に、同じプリセットされた時間期間内にソースデータセット及びジャーナル記述データセットから一対の並列テキストを構成し、
一対の並列テキストが(S_all,T_all)として表現され、S_allは当該一対の並列テキストにおけるソースデータセットを表し、S_all=G1,・・・,Gmであり、G1はS_allにおける語彙的に処理されたソースデータの第1の片を表し、GmはS_allにおける語彙的に処理されたソースデータのm番目の片を表し、mは当該ソースデータセットにおける語彙的に処理されたソースデータの片の個数であり、T_allは当該一対の並列テキストにおけるジャーナル記述データセットを表し、T_all=A1,・・・,Anであり、A1はT_allにおける語彙的に処理されたジャーナル記述データの第1の片を表し、AnはT_allにおける語彙的に処理されたジャーナル記述データのn番目の片を表し、nは当該ジャーナル記述データセットにおける語彙的に処理されたジャーナル記述データの片の個数であり、
アライメント確率セットを取得するように、夫々のソースデータシーケンスと、夫々のソースデータシーケンスに夫々対応するジャーナル記述データシーケンスとの間のアライメント確率を計算し、前記ソースデータシーケンスがS_allにおける語彙的に処理されたソースデータの少なくとも1つの片を含み、前記ジャーナル記述データシーケンスがT_allにおける語彙的に処理されたジャーナル記述データの少なくとも1つの片を含む
よう構成される。
第3の態様の第1実施様態を参照して、第3の態様の第3実施様態において、
前記プロセッサは具体的に、前記発生確率セットを取得するよう、夫々のジャーナル記述データシーケンスが前記ジャーナル記述データセットにおいて起こる確率を計算するよう構成され、前記ジャーナル記述データシーケンスが、前記ジャーナル記述データセットにおける前記語彙的に処理されたジャーナル記述データの少なくとも1つの片を含む。
第3の態様の前述の実施様態のいずれか1つを参照して、第3の態様の第4実施様態において、
前記プロセッサは具体的に、ソースデータシーケンスSとジャーナル記述データシーケンスTとの間のアライメント確率であるP(S|T)ごとに前記アライメント確率セットを探索し且つ前記ジャーナル記述データセットにおける前記ジャーナル記述データシーケンスTの発生確率であるP(T)ごとに前記発生確率セットを探索し、
Sが前記翻訳されるべきソースデータシーケンスである場合に、Tが、P(S|T)×P(T)を最大値に到達させる前記目標ジャーナル記述データシーケンスであると決定するよう構成される。
第3の態様の前述の実施様態のいずれか1つを参照して、第3の態様の第5実施様態において、前記プロセッサは具体的に、翻訳されるべき異なるタイプのデータシーケンスにおいて含まれる時間識別子に従って、前記翻訳されるべき異なるタイプのデータシーケンスに従って取得される夫々の目標ジャーナル記述データシーケンスから前記ジャーナル記述テキストを生成するよう構成される。
本発明の実施形態において、ソースデータセットにおける夫々のソースデータシーケンスとジャーナル記述データセットにおける夫々のジャーナル記述データシーケンスとの間のアライメント確率は、アライメント確率セットを取得するよう計算され;夫々のジャーナル記述データシーケンスが前記ジャーナル記述データセットにおいて起こる確率は、発生確率セットを取得するよう計算され;次いで、前記翻訳されるべきソースデータシーケンスに対応する目標ジャーナル記述データシーケンスは、前記アライメント確率セット及び前記発生確率セットに従って且つ夫々のジャーナル記述データシーケンスから決定され、このとき、前記翻訳されるべきソースデータシーケンスは前記ソースデータシーケンスのいずれか1つであり;そして、前記目標ジャーナル記述データシーケンスは、ジャーナル記述テキストに翻訳される。
先行技術と比較して、本発明は、先行技術においてはジャーナルがルールに基づき自動的に生成される場合に新しいデータタイプが処理され得ないので、実際の使用における不十分な柔軟性の問題を回避する。本発明の実施形態において、ジャーナルの自動生成は、前記アライメント確率セット及び前記発生確率セットに基づき実施され、ソースデータのタイプの制限を有さない。すなわち、ジャーナルの自動生成は、様々な異なるタイプのソースデータに基づき実施されてよい。本発明の実施形態によって提供される方法及び装置は、実際の使用において優れた拡張性を有する。
本発明の実施形態に従うジャーナル生成方法のフローチャートである。 本発明の実施形態に従うジャーナル生成方法のフローチャートである。 本発明の実施形態に従うジャーナル生成装置の構造図である。 本発明の実施形態に従う他のジャーナル生成装置の構造図である。 本発明の実施形態に従う更なる他のジャーナル生成装置の構造図である。
本発明の実施形態における又は先行技術における技術的問題をより明らかに記載するよう、下記は、実施形態又は先行技術を記載するのに必要な添付の図面を簡単に紹介する。明らかに、以下の記載における添付の図面は、本発明の幾つかの実施形態を示すにすぎず、当業者は、創造的な取り組みによらずにそれらの添付の図面から他の図面をなお導き出すことができる。
下記は、本発明の実施形態における添付の図面を参照して、本発明の実施形態における技術的解決法を明りょうに記載する。明らかに、記載される実施形態は、本発明の実施形態の全てよりむしろ単に一部である。創造的な取り組みによらずに本発明の実施形態に基づき当業者によって取得される全ての他の実施形態は、本発明の保護範囲内にあるべきである。
本発明の実施形態は、下記を含むジャーナル生成方法を提供する:
101.ソースデータセットと、そのソースデータセットに対応するジャーナル記述データセットとを取得する。
ソースデータセットを取得することは、様々なセンサによって得られるデータ、例えば、加速度センサによって得られる加速度データ、GPSセンサによって得られるGPSデータ、及び方位センサによって得られる方位データを取得することであってよく、また、ユーザの使用条件に関する情報、例えば、通話情報、ショートメッセージ、及び端末における夫々のアプリケーションに関する使用情報を取得することであってよい。
ソースデータセットにおける異なるタイプのソースデータは、異なるデータ表現形式を用いることによって表される。
例えば、加速度センサによって得られる加速度データは、タプル[データ取得時間,x軸加速度,y軸加速度,z軸加速度]を用いることによって、表されてよい。他の例として、GPSセンサによって得られるGPSデータは、タプル[データ取得時間,経度,緯度,高度]を用いることによって、表されてよい。他の例として、取得される通話情報、例えば、通話開始時間、通話終了時間、通話存続期間、発呼者、被呼者、及び不在呼び出しのための呼び出し待ち時間は、タプル[データ取得時間,ローカルモバイルフォン状態,ピアモバイルフォン状態,ローカルモバイルフォン設定状態,ピアモバイルフォンID]、例えば、[通話時間,着呼,発呼,モバイルフォンの呼出音,ピアモバイルフォンID]を用いることによって、表されてよい。
本発明の実施形態が前述のタプルに基づく表現形式のみを記載するところ、ソースデータの多数のデータ表現形式が存在してよい。確かに、他のデータ表現形式も使用されてよく、これは本願で限定されない。
ソースデータセットに対応するジャーナル記述データセットは、前もって手動により設定されてよい。例えば、ソースデータセットはGPSデータを含み、然るに、対応するジャーナル記述データセットは、前もって、ユーザのアクティビティ記述、位置情報、又は同様のものであるよう設定されてよい。ユーザのアクティビティ記述は、例えば、「私は仕事中であった(I was at work)」、「ランチのために公園へ行った(went to the park for lunch)」、「私は家にいた(I was at home)」、等であってよく、位置情報は、例えば、「オフィス(office)」、「公園(park)」及び「家(home)」であってよい。
ジャーナル記述データセットにおけるジャーナル記述データは、パラグラフ、センテンス、又は単語であってよい。
102.アライメント確率セットを取得するよう、ソースデータセットにおける夫々のソースデータシーケンスと、ジャーナル記述データセットにおける夫々のジャーナル記述データシーケンスとの間のアライメント確率を計算する。
ソースデータシーケンスは、ソースデータの少なくとも1つの片を含み、ジャーナル記述データシーケンスは、ジャーナル記述データの少なくとも1つの片を含む。
例えば、夫々のソースデータシーケンスと、夫々のソースデータシーケンスに夫々対応するジャーナル記述データシーケンスとの間のアライメント確率は、アライメント確率セットを取得するように、IBM翻訳モデル2におけるアライメント確率を用いることによって計算されてよい。
確かに、IBM翻訳モデル2におけるアライメント確率に加えて、構文翻訳モデル、フレーズ翻訳モデル、又は最大エントロピ翻訳モデルのような統計的機械翻訳方法も使用されてよい。
103.発生確率セットを取得するよう、夫々のジャーナル記述データシーケンスがジャーナル記述データセットにおいて起こる確率を計算する。
例えば、夫々のジャーナル記述データシーケンスがジャーナル記述データセットにおいて起こる確率は、発生確率セットを取得するように、最大尤度推定法を用いることによって計算されてよい。
このステップにおいて、最大尤度推定法は、夫々のジャーナル記述データシーケンスがジャーナル記述データセットにおいて起こる確率を計算するために使用されてよく、加えて、ベイズ推定法、最大事後確率推定法、又は同様のものも使用されてよい点が留意されるべきであり、これは本願で限定されない。
104.アライメント確率セット及び発生確率セットに従って且つ夫々のジャーナル記述データシーケンスから、ソースデータシーケンスのいずれか1つである翻訳されるべきソースデータシーケンスに対応する目標ジャーナル記述データシーケンスを決定する。
105.目標ジャーナル記述データシーケンスに従ってジャーナル記述テキストを生成する。
本発明の実施形態において、ソースデータセットにおける夫々のソースデータシーケンスと、ジャーナル記述データセットにおける夫々のジャーナル記述データシーケンスとの間のアライメント確率は、アライメント確率セットを取得するために計算され;夫々のジャーナル記述データシーケンスがジャーナル記述データセットにおいて起こる確率は、発生確率セットを取得するために計算され;次いで、ソースデータシーケンスのいずれか1つである翻訳されるべきソースデータシーケンスに対応する目標ジャーナル記述データシーケンスは、アライメント確率セット及び発生確率セットに従って且つ夫々のジャーナル記述データシーケンスから決定され;そして、目標ジャーナル記述データシーケンスは、ジャーナル記述テキストに翻訳される。先行技術と比較して、本発明は、先行技術においてはジャーナルがルールに基づき自動的に生成される場合に新しいデータタイプが処理され得ないので、実際の使用における不十分な柔軟性の問題を回避する。本発明の実施形態において、ジャーナルの自動生成は、アライメント確率セット及び発生確率セットに基づき実施され、ソースデータのタイプの制限を有さない。すなわち、ジャーナルの自動生成は、様々な異なるタイプのソースデータに基づき実施されてよい。本発明の実施形態によって提供される方法は、実際の使用において優れた柔軟性を有する。
加えて、本発明の実施形態において、ジャーナルの自動生成は、アライメント確率セット及び発生確率セットに基づき実施され、このとき、アライメント確率セット及び発生確率セットは、多数のトレーニングデータを用いることによるモデルトレーニング及び学習を実行することによって、取得されてよい。多数のトレーニングデータは、アライメント確率セット及び発生確率セットに基づき自動的にジャーナルを生成する際におけるより高い精度につながる。
任意に、図1aに示されるように、ステップ102の前に、方法は、次のステップを更に有してよい。
1001.語彙的に処理されたソースデータを取得するよう、ソースデータセットにおけるソースデータに対して対応する語彙的プロセッシングを実行し、且つ、語彙的に処理されたジャーナル記述データを取得するよう、ジャーナル記述データセットにおけるジャーナル記述データに対して語彙的プロセッシングを実行する。
下記は、一例としてGPSデータを用いることによって、語彙的に処理されたソースデータを取得するようソースデータセットにおけるソースデータに対して対応する語彙的プロセッシングを実行するステップを記載する。
例えば、クラスタ化プロセッシングがソースデータセットにおけるGPSデータに対して実行され、それにより、短距離範囲内のGPSデータは1つのクラスタに分類される。このとき、対応する語彙的プロセッシングは、空間パーティショニング法を用いることによるクラスタ化プロセッシングであってよい。
例えば、100m×100mの範囲内の位置に対応するGPSデータは、集合的にGPSクラスタとして表され、処理されたソースデータは、例えば、MがGPSクラスタIDであるとして、GPS 1,GPS 2,・・・,GPS Mとして表される100m×100mの範囲内のGPSデータの各片に対応するGPSクラスタIDである。
語彙的に処理されたジャーナル記述データを取得するようジャーナル記述データセットにおけるジャーナル記述データに対して語彙的プロセッシングを実行することは、ジャーナル記述データがユーザアクティビティ記述である例を用いることによって、記載される。
ジャーナル記述データセットにおけるジャーナル記述データがパラグラフ「私は八達嶺長城を旅行した、私は仕事中だった、私は花を見に公園へ行った、且つ、私は家に戻った(I toured the Great Wall at Badaling, I was at work, I went to the park to see flowers, and I went back home)」であるとすると、対応する語彙的プロセッシングは、処理されたジャーナル記述データ「私は八達嶺長城を旅行した(I toured the Great Wall at Badaling)」、「私は仕事中だった(I was at work)」、「私は花を見に公園へ行った(I went to the park to see flowers)」、及び「私は家に戻った(I went back home)」を取得するようジャーナル記述データセットにおけるジャーナル記述データに対して実行される中国語単語分割プロセッシングであってよい。
確かに、実際の適用の異なる要件に従って、対応する語彙的プロセッシングはまた、ジャーナル記述データセットにおけるジャーナル記述データに対するフレーズ抽出であってよい。例えば、ジャーナル記述データセットにおけるジャーナル記述データは、複数のセンテンス、すなわち、「私はレストランで食事した(I had a meal at a restaurant)」、「コートで球技を楽しんだ(played a ball game at a court)」、及び「晩にゲームで遊んだ(played a game in the evening)」であり、フレーズ抽出プロセッシングが実行された後、「食事した(had a meal)」、「球技を楽しんだ(played a ball game)」及び「ゲームで遊んだ(played a game)」が取得されてよい。
語彙的プロセッシングは、主に、センテンスを変更する、例えば、1つのセンテンスに対して中国語単語分割を実行する、1つのセンテンスからフレーズを抽出する、等のために、使用される点が留意されるべきである。語彙的プロセッシングの前のデータが既に一語である場合は、対応する語彙的プロセッシング動作は実行されなくてよいことが理解され得る。
更に、ステップ102で、アライメント確率セットを取得するよう、ソースデータセットにおける夫々のソースデータシーケンスと、ジャーナル記述データセットにおける夫々のジャーナル記述データシーケンスとの間のアライメント確率を計算することは、具体的に、次の様態において実施されてよい:
最初に、同じプリセットされた時間期間内にソースデータセット及びジャーナル記述データセットから一対の並列テキストを構成する。
一対の並列テキストは、(S_all,T_all)として表現される。S_allは一対の並列テキストにおけるソースデータセットを表し、S_all=G1,・・・,Gmである。このとき、G1は、S_allにおける語彙的に処理されたソースデータの第1の片を表し、Gmは、S_allにおける語彙的に処理されたソースデータのm番目の片を表し、mは、ソースデータセットにおける語彙的に処理されたソースデータの片の個数である。T_allは一対の並列テキストにおけるジャーナル記述データセットを表し、T_all=A1,・・・,Anである。このとき、A1は、T_allにおける語彙的に処理されたジャーナル記述データの第1の片を表し、Anは、T_allにおける語彙的に処理されたジャーナル記述データのn番目の片を表し、nは、ジャーナル記述データセットにおける語彙的に処理されたジャーナル記述データの片の個数である。
例えば、ソースデータセットは、初日におけるユーザのGPSデータに対して語彙的プロセッシングを実行するよって取得されるGPSデータであり、S1_all=GPS 1,・・・,GPS mとして表現され、ジャーナル記述データセットは、S1_allに対応する初日におけるユーザのアクティビティデータ記述であり、T1_all=Activity 1,・・・,Activity nとして表現される。一対の並列テキストは、初日におけるソースデータセット及びジャーナル記述データセットに基づき構成されてよく、(S1_all,T1_all)として表現される。
同様に、(S2_all,T2_all)も構成されてよく、このとき、S2_allは、2日目におけるソースデータセットを表し、T2_allは、S2_allに対応するジャーナル記述データセットを表す。類推によって、並列コーパスは、N日間のソースデータセット及びジャーナル記述データセットを用いることによって構成されてよく、これは、ST={(S1_all,T1_all),(S2_all,T2_all)・・・(Sn_all,Tn_all)}として表現される。
次いで、アライメント確率セットを取得するよう、夫々のソースデータシーケンスと、夫々のソースデータシーケンスに夫々対応するジャーナル記述データシーケンスとの間のアライメント確率を計算する。
このステップで、具体的に、夫々のソースデータシーケンスと、夫々のソースデータシーケンスに夫々対応するジャーナル記述データシーケンスとの間のアライメント確率は、アライメント確率セットを取得するように、IBM翻訳モデル2におけるアライメント確率を用いることによって計算されてよい。
ソースデータシーケンスは、S_allにおける語彙的に処理されたソースデータの少なくとも1つの片を含み、ジャーナル記述データシーケンスは、T_allにおける語彙的に処理されたジャーナル記述データの少なくとも1つの片を含む。
IBM翻訳モデル2におけるアライメント確率が、夫々のソースデータシーケンスと、夫々のソースデータシーケンスに夫々対応するジャーナル記述データシーケンスとの間のアライメント確率を計算するために使用される場合に、ソースデータシーケンスと、そのソースデータシーケンスに対応するジャーナル記述データシーケンスとの間のアライメント確率は、具体的な条件の下のアライメント確率である点が留意されるべきである。
その具体的な条件は、[ソースデータシーケンス,ソースデータシーケンスに対応するジャーナル記述データシーケンス,セットS_allにおけるソースデータシーケンスの位置、セットT_allにおけるソースデータシーケンスに対応するジャーナル記述データシーケンスの位置,セットS_allの長さ,セットT_allの長さ]として表現される。
アライメント確率をより分かりやすくするよう、アライメント確率の概念は、簡潔に次のように説明される:
統計的自然言語処理において、アライメントモデル(alignment model)は、次のように定義される:
S_mが、mの長さを有するソース言語におけるセンテンスであり、T_lが、lの長さを有する目標言語におけるセンテンスである場合に、T_l及びS_mにおける単語の間にはl×m個の対応が存在する。「アライメント」は、単語の間の対応によって決定される。結果として、S_mとT_lとの間に設定されるアライメント関係は、全部で2l×m種類のアライメントを有する。
所与のセンテンス対(S_m|T_l)に関して、全ての単語対(s,t)の間に対応が存在するとして(sはS_mにおける単語であり、tはT_lにおける単語である。)、その場合に、それらの対応を表すモデルはアライメントモデル(alignment model)と呼ばれる。
「アライメント確率」は、具体的な条件の下でsをtに翻訳する確率を指す。
アライメント確率のより詳細な説明のために、統計的自然言語処理における関連する記載が参照されてよい。
理解の簡単のために、本発明の実施形態において、ソースデータシーケンスはSと表され、ジャーナル記述データシーケンスはTと表され、ソースデータシーケンスとそのソースデータシーケンスに対応するジャーナル記述データシーケンスとの間のアライメント確率はP(S|T)と表される。
例えば、一対の並列テキスト(S1_all,T1_all)が存在し、IBM翻訳モデル2におけるアライメント確率を用いることによってアライメント確率を計算することは、次のように実施される:
並列テキストにおいて、ソースデータセットはS1_all=GPS 1,・・・,GPS mであり、ジャーナル記述データセットはT1_all=Activity 1,・・・,Activity nであるとする。
ソースデータシーケンスSがGPS 2であり、ジャーナル記述データシーケンスTはActivity 3であり、セットS1_allにおけるソースデータシーケンスの位置が2であり、セットT1_allにおけるジャーナル記述データシーケンスの位置が3であり、セットS1_allの長さが12であり、セットT1_allの長さが14である場合に、P(S|T)を計算するプロセスは次のとおりである:
{並列コーパスにおける[GPS 2,Activity 3,X,3,12,14]の発生回数Σ X=1}に対する{並列コーパスにおける[GPS 2,Activity 3,2,3,12,14]の発生回数}の比(Mは、セットS_allの長さである。)。
例えば、GPS 2の値が(116.45,39.92)であり、Activity 3の値が“tour”である場合に、並列コーパスSTにおける[(116.45,39.92),“tour”,2,3,12,14]の発生回数は、ジャーナル記述データセットの長さが14であり、ソースデータセットの長さが12であり、ジャーナル記述データセットにおけるジャーナル記述データシーケンス“tour”の位置が3であり、ソースデータシーケンス(116.45,39.92)の位置が2である場合の並列コーパス全体における発生回数を指す。
[GPS 2,Activity 3,X,3,12,14]の発生回の和は、ジャーナル記述データセットの長さが14であり、ソースデータセットの長さが12であり、ジャーナル記述データセットにおけるジャーナル記述データシーケンス“tour”の位置が3であり、ソースデータシーケンス(116.45,39.92)がソースデータセットのX番目の位置にある場合の並列コーパス全体における発生回数を指す。
前述のソースデータシーケンスは、一例としてソースデータの一片を用いることによって記載される点が留意されるべきである。確かに、ソースデータシーケンスは、ソースデータの2以上の片を更に含んでよく、ジャーナル記述データシーケンスは、ジャーナル記述データの2以上の片を更に含んでよい。
このステップでは、IBM翻訳モデル2におけるアライメント確率を使用するより詳細な実施のために、先行技術が参照されてよい。確かに、このステップで、IBM翻訳モデル2におけるアライメント確率が使用されてよく、加えて、構文翻訳モデル、フレーズ翻訳モデル、又は最大エントロピ翻訳モデルのような統計的機械翻訳方法も使用されてよい。
更に、ステップ103で、発生確率セットを取得するよう、夫々のジャーナル記述データシーケンスがジャーナル記述データセットにおいて起こる確率を計算することは:
発生確率セットを取得するよう夫々のジャーナル記述データシーケンスがジャーナル記述データセットにおいて起こる確率を計算することを含み、ジャーナル記述データシーケンスは、ジャーナル記述データセットにおける語彙的に処理されたジャーナル記述データの少なくとも1つの片を含む。
実際の適用において、夫々のジャーナル記述データシーケンスがジャーナル記述データセットにおいて起こる確率は、例えば、最大尤度推定法を用いることによって、計算されてよく、これは、模範的な例を参照して具体的に記載される。
例えば、ジャーナル記述データセットは、次の3つのセンテンスである:
(1)JOHN READ HOLY BIBLE
(2)MARK READ A TEXT BOOK
(3)HE READ A BOOK BY DAVID
例えば、ジャーナル記述データシーケンスTがセンテンス(1)である計算を例とすると、ジャーナル記述データセットにおけるジャーナル記述データシーケンスTの発生確率はP(T)と表され、その場合に、P(T)を計算するプロセスは次のとおりである:
P(JOHN READ A BOOK)
=P(JOHN|<BOS>)×P(READ|JOHN)×P(A|READ)×P(BOOK|A)×P(<EOS>|BOOK)
=1/3×1/1×2/3×1/2×1/2
=0.06
既存の関連技術は、最大尤度推定のより詳細な実施のために参照されてよい。
このステップで、最大尤度推定法は、夫々のジャーナル記述データシーケンスがジャーナル記述データセットにおいて起こる確率を計算するために使用されてよく、加えて、ベイズ推定法、最大事後確率推定法、又は同様のものも使用されてよい点が留意されるべきであり、これは本願で限定されない。
ステップ101乃至103の動作の後、アライメント確率セット及び発生確率セットは取得されてよく、このとき、アライメント確率セットは多数のP(S|T)を含み、発生確率セットは多数のP(T)を含む。
更に、ステップ104で、アライメント確率セット及び発生確率セットに従って且つ夫々のジャーナル記述データシーケンスから、ソースデータシーケンスのいずれか1つである翻訳されるべきソースデータシーケンスに対応する目標ジャーナル記述データシーケンスを決定することは:
ソースデータシーケンスSとジャーナル記述データシーケンスTとの間のアライメント確率であるP(S|T)ごとにアライメント確率セットを探索し且つジャーナル記述データセットにおけるジャーナル記述データシーケンスTの発生確率であるP(T)ごとに発生確率セットを探索することと、
Sが翻訳されるべきソースデータシーケンスである場合に、Tが、P(S|T)×P(T)を最大値に到達させる前記目標ジャーナル記述データシーケンスであると決定するステップと
を有する。
例えば、ステップ102の後に取得されるアライメント確率セットは、次のとおりであるとする:
P(GPS1|“私は八達嶺長城を旅行した”)=0.05
P(GPS1|“私は仕事中だった”)=0.0
P(GPS2|“私は仕事中だった”)=0.005
P(GPS3|“ランチのために公園へ行った”)=0.015
P({GPS2,GPS3}|{“私は仕事中だった”,“ランチのために公園へ行った})=0.0005
P(GPS4|“私は家にいた”)=0.015
P(GPS5|“退社した(got off work)”)=0.015
・・・
P(GPS4|“退社した”)=0.0015
P({GPS1,GPS2,GPS3,GPS4}|{“私は家にいた”,“私は仕事中だった”,“ランチのために公園へ行った”,“退社した”})=0.0001
P({GPS1,GPS2,GPS3,GPS4}|{“私は家にいた”,“私は仕事中だった”,“花を見に公園へ行った”,“退社した”})=0.00008
ステップ103の後で取得される発生確率セットは、次のとおりであるとする:
P(“八達嶺長城を旅行した”)=0.01
P(“私は仕事中だった”)=0.003
P(“ランチのために公園へ行った”)=0.01
P(“私へ家にいた”)=0.003
・・・
P(“退社した”)=0.0001
P(“私は家にいた”,“私は仕事中だった”,“ランチのために公園へ行った”,“退社した”)=0.00008
P(“私は家にいた”,“私は仕事中だった”,“花を見に公園へ行った”,“退社した”)=0.0000001
翻訳されるべきソースデータシーケンスがS={GPS1,GPS2,GPS3,GPS4}である場合は、P(S|T)×P(T)を最大値に到達されるジャーナル記述データシーケンスがT={“私は家にいた”,“私は仕事中だった”,“花を見に公園へ行った”,“退社した”}であることを見つけるよう、アライメント確率セットにおける夫々のP(S|T)及び発生確率セットにおける夫々のP(T)を探索する。
{“私は家にいた”,“私は仕事中だった”,“花を見に公園へ行った”,“退社した”}は、目標ジャーナル記述データシーケンスである。
更に、ステップ105で、目標ジャーナル記述データシーケンスに従ってジャーナル記述テキストを生成することは:
翻訳されるべき異なるタイプのデータシーケンスにおいて含まれる時間識別子に従って、翻訳されるべき異なるタイプのデータシーケンスに従って取得される夫々の目標ジャーナル記述データシーケンスからジャーナル記述テキストを生成することを含む。
翻訳されるべきソースデータシーケンスにおけるソースデータの各片は、いつ取得が実行されるのかを示す時間識別子を含む。翻訳されるべきソースデータシーケンスにおけるソースデータは、ジャーナル記述データシーケンスにおけるジャーナル記述データに対応する。そのような対応は、ソースデータの一片がジャーナル記述データの一片に対応し、ソースデータの複数の片がジャーナル記述データの一片に対応し、又はソースデータの一片がジャーナル記述データの複数の片に対応することであってよい。対応の具体的な様態は、実際の適用に依存する。従って、複数の目標ジャーナル記述データシーケンスは、ジャーナル記述テキストのパラグラフを形成するようソースデータの時間識別子を用いることによって連結されてよい。
例えば、翻訳されるべきデータシーケンスが加速度センサデータである場合に、翻訳によって取得される目標ジャーナル記述データシーケンスは、{起床する(get up),食事する(have meal),仕事に行く(go to work),昼休み(lunch break),仕事(work),退社する(get off work),帰宅する(go home)}である。
翻訳されるべきデータシーケンスが時間データである場合に、翻訳によって取得される目標ジャーナル記述データシーケンスは、{7:00 am,7:20 am,8:00 am,12:00 pm,2:00 pm,6:00 pm}である。
翻訳されるべきデータシーケンスがGPS及びWi−Fiデータである場合に、翻訳によって取得される目標ジャーナル記述データシーケンスは、{家、食堂、オフィス、公園、オフィス、通り}である。
然るに、最終的に生成されるジャーナル記述テキストは:
私は午前7時に起床した,午前7時20分に家を出て食堂で食事した,午前8時にオフィスに到着して仕事を始めた,午後12時に昼休みのために公園へ行った,午後2時にオフィスに戻り午後の仕事を開始した,そして、午後6時に退社して帰宅した(I got up at 7:00 am, left home to have breakfast in the dining hall at 7:20 am, arrived at the office to start work at 8:00 am, went to the park for a lunch break at 12:00 pm, went back to the office to start afternoon work at 2:00 pm, and got off work and went home at 6:00 pm)
である。
本発明の実施形態は、図2に示されるようなジャーナル生成装置を提供する。図2において、装置は、取得モジュール21、計算モジュール22、翻訳モジュール23、及びジャーナル生成モジュール24を有する。
取得モジュール21は、ソースデータセットと、そのソースデータセットに対応するジャーナル記述データセットとを取得するよう構成される。
ソースデータセットを取得することは、様々なセンサによって得られるデータを取得することであってよい。
ソースデータセットにおける異なるタイプのソースデータは、異なるデータ表現形式を用いることによって表され、例えば、ソースデータは、タプルを用いることによって表されてよい。本発明の実施形態が前述のタプルに基づく表現形式のみを記載するところ、ソースデータの多数のデータ表現形式が存在する。確かに、他のデータ表現形式も使用されてよい。これは本願で限定されない。
ソースデータセットに対応するジャーナル記述データセットは、前もって手動により設定されてよい。例えば、ソースデータセットはGPSデータを含み、然るに、対応するジャーナル記述データセットは、前もって、ユーザのアクティビティ記述、位置情報、又は同様のものであるよう設定されてよい。ユーザのアクティビティ記述は、例えば、「私は仕事中であった(I was at work)」、「ランチのために公園へ行った(went to the park for lunch)」、「私は家にいた(I was at home)」、等であってよく、位置情報は、例えば、「オフィス(office)」、「公園(park)」及び「家(home)」であってよい。
ジャーナル記述データセットにおけるジャーナル記述データは、パラグラフ、センテンス、又は単語であってよい。
計算モジュール22は、アライメント確率セットを取得するように、ソースデータセットにおける夫々のソースデータシーケンスと、ジャーナル記述データセットにおける夫々のジャーナル記述データシーケンスとの間のアライメント確率を計算するよう構成される。
ソースデータシーケンスは、ソースデータの少なくとも1つの片を含み、ジャーナル記述データシーケンスは、ジャーナル記述データの少なくとも1つの片を含む。
例えば、夫々のソースデータシーケンスと、夫々のソースデータシーケンスに夫々対応するジャーナル記述データシーケンスとの間のアライメント確率は、アライメント確率セットを取得するように、IBM翻訳モデル2におけるアライメント確率を用いることによって計算されてよい。確かに、IBM翻訳モデル2におけるアライメント確率に加えて、構文翻訳モデル、フレーズ翻訳モデル、又は最大エントロピ翻訳モデルのような統計的機械翻訳方法も使用されてよい。
計算モジュール22は更に、発生確率セットを取得するように、夫々のジャーナル記述データシーケンスがジャーナル記述データセットにおいて起こる確率を計算するよう構成される。
例えば、計算モジュール22は、発生確率セットを取得するように、最大尤度推定法を用いることによって、夫々のジャーナル記述データシーケンスがジャーナル記述データセットにおいて起こる確率を計算してよい。
このステップにおいて、最大尤度推定法は、夫々のジャーナル記述データシーケンスがジャーナル記述データセットにおいて起こる確率を計算するために使用されてよく、加えて、ベイズ推定法、最大事後確率推定法、又は同様のものも使用されてよい点が留意されるべきであり、これは本願で限定されない。
翻訳モジュール23は、アライメント確率セット及び発生確率セットに従って且つ夫々のジャーナル記述データシーケンスから、ソースデータシーケンスのいずれか1つである翻訳されるべきソースデータシーケンスに対応する目標ジャーナル記述データシーケンスを決定するよう構成される。
ジャーナル生成モジュール24は、目標ジャーナル記述データシーケンスに従ってジャーナル記述テキストを生成するよう構成される。
本発明の実施形態によって提供される装置の機能実施のために、ジャーナル生成方法の関連する記載が参照されてよい。
本発明の実施形態において、ソースデータセットにおける夫々のソースデータシーケンスと、ジャーナル記述データセットにおける夫々のジャーナル記述データシーケンスとの間のアライメント確率は、アライメント確率セットを取得するために計算され;夫々のジャーナル記述データシーケンスがジャーナル記述データセットにおいて起こる確率は、発生確率セットを取得するために計算され;次いで、ソースデータシーケンスのいずれか1つである翻訳されるべきソースデータシーケンスに対応する目標ジャーナル記述データシーケンスは、アライメント確率セット及び発生確率セットに従って且つ夫々のジャーナル記述データシーケンスから決定され;そして、目標ジャーナル記述データシーケンスは、ジャーナル記述テキストに翻訳される。先行技術と比較して、本発明は、先行技術においてはジャーナルがルールに基づき自動的に生成される場合に新しいデータタイプが処理され得ないので、実際の使用における不十分な柔軟性の問題を回避する。本発明の実施形態において、ジャーナルの自動生成は、アライメント確率セット及び発生確率セットに基づき実施され、ソースデータのタイプの制限を有さない。すなわち、ジャーナルの自動生成は、様々な異なるタイプのソースデータに基づき実施されてよい。本発明の実施形態によって提供される装置は、実際の使用において優れた柔軟性を有する。
加えて、本発明の実施形態において、ジャーナルの自動生成は、アライメント確率セット及び発生確率セットに基づき実施され、このとき、アライメント確率セット及び発生確率セットは、多数のトレーニングデータを用いることによるモデルトレーニング及び学習を実行することによって、取得されてよい。多数のトレーニングデータは、アライメント確率セット及び発生確率セットに基づき自動的にジャーナルを生成する際におけるより高い精度につながる。
任意に、図2aに示されるように、ジャーナル生成装置は、更に:
語彙的に処理されたソースデータを取得するように、ソースデータセットにおけるソースデータに対して語彙的プロセッシングを実行するよう構成される語彙的プロセッシングモジュール25
を有する。
例えば、クラスタ化プロセッシングがソースデータセットにおけるGPSデータに対して実行され、それにより、短距離範囲内のGPSデータは1つのクラスタに分類される。このとき、対応する語彙的プロセッシングは、空間パーティショニング法を用いることによるクラスタ化プロセッシングであってよい。
例えば、100m×100mの範囲内の位置に対応するGPSデータは、集合的にGPSクラスタとして表され、処理されたソースデータは、例えば、MがGPSクラスタIDであるとして、GPS 1,GPS 2,・・・,GPS Mとして表される100m×100mの範囲内のGPSデータの各片に対応するGPSクラスタIDである。
語彙的プロセッシングモジュール25は更に、語彙的に処理されたジャーナル記述データを取得するように、ジャーナル記述データセットにおけるジャーナル記述データに対して語彙的プロセッシングを実行するよう構成される。
例えば、ジャーナル記述データセットにおけるジャーナル記述データは、パラグラフ「私は八達嶺長城を旅行した、私は仕事中だった、私は花を見に公園へ行った、且つ、私は家に戻った(I toured the Great Wall at Badaling, I was at work, I went to the park to see flowers, and I went back home)」である。対応する語彙的プロセッシングは、処理されたジャーナル記述データ「私は八達嶺長城を旅行した(I toured the Great Wall at Badaling)」、「私は仕事中だった(I was at work)」、「私は花を見に公園へ行った(I went to the park to see flowers)」、及び「私は家に戻った(I went back home)」を取得するようジャーナル記述データセットにおけるジャーナル記述データに対して実行される中国語単語分割プロセッシングであってよい。
確かに、実際の適用の異なる要件に従って、対応する語彙的プロセッシングはまた、ジャーナル記述データセットにおけるジャーナル記述データに対するフレーズ抽出であってよい。例えば、ジャーナル記述データセットにおけるジャーナル記述データは、複数のセンテンス、すなわち、「私はレストランで食事した(I had a meal at a restaurant)」、「コートで球技を楽しんだ(played a ball game at a court)」、及び「晩にゲームで遊んだ(played a game in the evening)」であり、フレーズ抽出プロセッシングが実行された後、「食事した(had a meal)」、「球技を楽しんだ(played a ball game)」及び「ゲームで遊んだ(played a game)」が取得されてよい。
語彙的プロセッシングは、主に、センテンスを変更する、例えば、1つのセンテンスに対して中国語単語分割を実行する、1つのセンテンスからフレーズを抽出する、等のために、使用される点が留意されるべきである。語彙的プロセッシングの前のデータが既に一語である場合は、対応する語彙的プロセッシング動作は実行されなくてよいことが理解され得る。
本発明の実施形態によって提供される語彙的プロセッシングモジュール25の機能実施のために、ジャーナル生成方法におけるステップ1001及び102の関連する記述も参照されてよい。
更に、ジャーナル生成装置において、計算モジュール22は具体的に、同じプリセットされた時間期間内にソースデータセット及びジャーナル記述データセットから一対の並列テキストを構成するよう構成される。
一対の並列テキストは、(S_all,T_all)として表現される。
S_allは一対の並列テキストにおけるソースデータセットを表し、S_all=G1,・・・,Gmである。このとき、G1は、S_allにおける語彙的に処理されたソースデータの第1の片を表し、Gmは、S_allにおける語彙的に処理されたソースデータのm番目の片を表し、mは、ソースデータセットにおける語彙的に処理されたソースデータの片の個数である。そして、T_allは一対の並列テキストにおけるジャーナル記述データセットを表し、T_all=A1,・・・,Anである。このとき、A1は、T_allにおける語彙的に処理されたジャーナル記述データの第1の片を表し、Anは、T_allにおける語彙的に処理されたジャーナル記述データのn番目の片を表し、nは、ジャーナル記述データセットにおける語彙的に処理されたジャーナル記述データの片の個数である。
例えば、ソースデータセットは、初日におけるユーザのGPSデータに対して語彙的プロセッシングを実行するよって取得されるGPSデータであり、S1_all=GPS 1,・・・,GPS mとして表現され、ジャーナル記述データセットは、S1_allに対応する初日におけるユーザのアクティビティデータ記述であり、T1_all=Activity 1,・・・,Activity nとして表現される。一対の並列テキストは、初日におけるソースデータセット及びジャーナル記述データセットに基づき構成されてよく、(S1_all,T1_all)として表現される。
同様に、(S2_all,T2_all)も構成されてよく、このとき、S2_allは、2日目におけるソースデータセットを表し、T2_allは、S2_allに対応するジャーナル記述データセットを表す。類推によって、並列コーパスは、N日間のソースデータセット及びジャーナル記述データセットを用いることによって構成されてよく、これは、ST={(S1_all,T1_all),(S2_all,T2_all)・・・(Sn_all,Tn_all)}として表現される。
計算モジュール22は具体的に、アライメント確率セットを取得するように、夫々のソースデータシーケンスと、夫々のソースデータシーケンスに夫々対応するジャーナル記述データシーケンスとの間のアライメント確率を計算するよう構成される。
ソースデータシーケンスは、S_allにおける語彙的に処理されたソースデータの少なくとも1つの片を含み、ジャーナル記述データシーケンスは、T_allにおける語彙的に処理されたジャーナル記述データの少なくとも1つの片を含む。
例えば、計算モジュール22は、アライメント確率セットを取得するように、IBM翻訳モデル2におけるアライメント確率を用いることによって、夫々のソースデータシーケンスと、夫々のソースデータシーケンスに夫々対応するジャーナル記述データシーケンスとの間のアライメント確率を計算してよい。
IBM翻訳モデル2におけるアライメント確率が、夫々のソースデータシーケンスと、夫々のソースデータシーケンスに夫々対応するジャーナル記述データシーケンスとの間のアライメント確率を計算するために使用される場合に、ソースデータシーケンスと、そのソースデータシーケンスに対応するジャーナル記述データシーケンスとの間のアライメント確率は、具体的な条件の下のアライメント確率である。
その具体的な条件は、[ソースデータシーケンス,ソースデータシーケンスに対応するジャーナル記述データシーケンス,セットS_allにおけるソースデータシーケンスの位置、セットT_allにおけるソースデータシーケンスに対応するジャーナル記述データシーケンスの位置,セットS_allの長さ,セットT_allの長さ]として表現される。
理解の簡単のために、本発明の実施形態において、ソースデータシーケンスはSと表され、ジャーナル記述データシーケンスはTと表され、ソースデータシーケンスとそのソースデータシーケンスに対応するジャーナル記述データシーケンスとの間のアライメント確率はP(S|T)と表される。
例えば、一対の並列テキスト(S1_all,T1_all)が存在し、IBM翻訳モデル2におけるアライメント確率を用いることによってアライメント確率を計算することは、次のように実施される:
並列テキストにおいて、ソースデータセットはS1_all=GPS 1,・・・,GPS mであり、ジャーナル記述データセットはT1_all=Activity 1,・・・,Activity nであるとする。
ソースデータシーケンスSがGPS 2であり、ジャーナル記述データシーケンスTはActivity 3であり、セットS1_allにおけるソースデータシーケンスの位置が2であり、セットT1_allにおけるジャーナル記述データシーケンスの位置が3であり、セットS1_allの長さが12であり、セットT1_allの長さが14である場合に、P(S|T)を計算するプロセスは次のとおりである:
{並列コーパスにおける[GPS 2,Activity 3,X,3,12,14]の発生回数Σ X=1}に対する{並列コーパスにおける[GPS 2,Activity 3,2,3,12,14]の発生回数}の比(Mは、セットS_allの長さである。)。
例えば、GPS 2の値が(116.45,39.92)であり、Activity 3の値が“tour”である場合に、並列コーパスSTにおける[(116.45,39.92),“tour”,2,3,12,14]の発生回数は、ジャーナル記述データセットの長さが14であり、ソースデータセットの長さが12であり、ジャーナル記述データセットにおけるジャーナル記述データシーケンス“tour”の位置が3であり、ソースデータシーケンス(116.45,39.92)の位置が2である場合の並列コーパス全体における発生回数を指す。
[GPS 2,Activity 3,X,3,12,14]の発生回の和は、ジャーナル記述データセットの長さが14であり、ソースデータセットの長さが12であり、ジャーナル記述データセットにおけるジャーナル記述データシーケンス“tour”の位置が3であり、ソースデータシーケンス(116.45,39.92)がソースデータセットのX番目の位置にある場合の並列コーパス全体における発生回数を指す。
本発明の実施形態によって提供される計算モジュール22の機能実施のために、ジャーナル生成方法のステップ102の関連する記載も参照されてよい。
更に、ジャーナル生成装置において、計算モジュール22は具体的に、発生確率セットを取得するように、夫々のジャーナル記述データシーケンスがジャーナル記述データセットにおいて起こる確率を計算するよう構成される。
ジャーナル記述データシーケンスは、ジャーナル記述データセットにおける語彙的に処理されたジャーナル記述データの少なくとも1つの片を含む。
実際の適用において、計算モジュール22は、例えば、最大尤度推定法を用いることによって、夫々のジャーナル記述データシーケンスがジャーナル記述データセットにおいて起こる確率を計算してよく、これは、模範的な例を参照して具体的に記載される。
例えば、ジャーナル記述データセットは、次の3つのセンテンスである:
(1)JOHN READ HOLY BIBLE
(2)MARK READ A TEXT BOOK
(3)HE READ A BOOK BY DAVID
例えば、ジャーナル記述データシーケンスTがセンテンス(1)である計算を例とすると、ジャーナル記述データセットにおけるジャーナル記述データシーケンスTの発生確率はP(T)と表され、その場合に、P(T)を計算するプロセスは次のとおりである:
P(JOHN READ A BOOK)
=P(JOHN|<BOS>)×P(READ|JOHN)×P(A|READ)×P(BOOK|A)×P(<EOS>|BOOK)
=1/3×1/1×2/3×1/2×1/2
=0.06
本発明の実施形態によって提供される計算モジュール22の機能実施のために、ジャーナル生成方法のステップ103の関連する記載も参照されてよい。
更に、ジャーナル生成装置において、翻訳モジュール23は具体的に、アライメント確率セットにおいて夫々のP(S|T)を探し且つ発生確率セットにおいて夫々のP(T)を探すよう構成される。
P(S|T)は、ソースデータシーケンスSとジャーナル記述データシーケンスTとの間のアライメント確率であり、P(T)は、ジャーナル記述データセットにおけるジャーナル記述データシーケンスTの発生確率である。
Sが翻訳されるべきソースデータシーケンスである場合に、翻訳モジュール23は更に、具体的に、Tが、P(S|T)×P(T)を最大値に到達させる前記目標ジャーナル記述データシーケンスであると決定するよう構成される
本発明の実施形態によって提供される翻訳モジュール23の機能実施のために、ジャーナル生成方法のステップ104も参照されてよい。
更に、ジャーナル生成装置において、ジャーナル生成モジュール24は具体的に、翻訳されるべき異なるタイプのデータシーケンスにおいて含まれる時間識別子に従って、翻訳されるべき異なるタイプのデータシーケンスに従って取得される夫々の目標ジャーナル記述データシーケンスからジャーナル記述テキストを生成するよう構成される。
翻訳されるべきソースデータシーケンスにおけるソースデータの各片は、いつ取得が実行されるのかを示す時間識別子を含む。翻訳されるべきソースデータシーケンスにおけるソースデータは、ジャーナル記述データシーケンスにおけるジャーナル記述データに対応する。そのような対応は、ソースデータの一片がジャーナル記述データの一片に対応し、ソースデータの複数の片がジャーナル記述データの一片に対応し、又はソースデータの一片がジャーナル記述データの複数の片に対応することであってよい。対応の具体的な様態は、実際の適用に依存する。従って、複数の目標ジャーナル記述データシーケンスは、ジャーナル記述テキストのパラグラフを形成するようソースデータの時間識別子を用いることによって連結されてよい。
本発明の実施形態によって提供されるジャーナル生成モジュール24の機能実施のために、ジャーナル生成方法のステップ105も参照されてよい。
本発明の実施形態は、図3に示されるようなジャーナル生成装置を更に提供する。図3において、装置は、プロセッサ31、メモリ24、バス3000、及び駆動回路3001を有する。
プロセッサ31は、ソースデータセットと、そのソースデータセットに対応するジャーナル記述データセットとを取得するよう構成される。
例えば、ソースデータセットを取得することは、様々なセンサによって得られるデータを取得することであってよい。
ソースデータセットにおける異なるタイプのソースデータは、異なるデータ表現形式を用いることによって表され、例えば、ソースデータは、タプルを用いることによって表されてよい。本発明の実施形態が前述のタプルに基づく表現形式のみを記載するところ、ソースデータの多数のデータ表現形式が存在する。確かに、他のデータ表現形式も使用されてよい。これは本願で限定されない。
ソースデータセットに対応するジャーナル記述データセットは、前もって手動により設定されてよい。例えば、ソースデータセットはGPSデータを含み、然るに、対応するジャーナル記述データセットは、前もって、ユーザのアクティビティ記述、位置情報、又は同様のものであるよう設定されてよい。ユーザのアクティビティ記述は、例えば、「私は仕事中であった(I was at work)」、「ランチのために公園へ行った(went to the park for lunch)」、「私は家にいた(I was at home)」、等であってよく、位置情報は、例えば、「オフィス(office)」、「公園(park)」及び「家(home)」であってよい。
ジャーナル記述データセットにおけるジャーナル記述データは、パラグラフ、センテンス、又は単語であってよい。
プロセッサ31は更に、ソースデータシーケンスがソースデータの少なくとも1つの片を含み、ジャーナル記述データシーケンスがジャーナル記述データの少なくとも1つの片を含むところ、アライメント確率セットを取得するように、ソースデータセットにおける夫々のソースデータシーケンスと、ジャーナル記述データセットにおける夫々のジャーナル記述データシーケンスとの間のアライメント確率を計算するよう構成される。
ソースデータシーケンスは、ソースデータの少なくとも1つの片を含み、ジャーナル記述データシーケンスは、ジャーナル記述データの少なくとも1つの片を含む。
例えば、夫々のソースデータシーケンスと、夫々のソースデータシーケンスに夫々対応するジャーナル記述データシーケンスとの間のアライメント確率は、アライメント確率セットを取得するように、IBM翻訳モデル2におけるアライメント確率を用いることによって計算されてよい。
確かに、IBM翻訳モデル2におけるアライメント確率に加えて、構文翻訳モデル、フレーズ翻訳モデル、又は最大エントロピ翻訳モデルのような統計的機械翻訳方法も使用されてよい。
プロセッサ31は更に、発生確率セットを取得するように、夫々のジャーナル記述データシーケンスがジャーナル記述データセットにおいて起こる確率を計算するよう構成される。
例えば、プロセッサ31は、発生確率セットを取得するように、最大尤度推定法を用いることによって、夫々のジャーナル記述データシーケンスがジャーナル記述データセットにおいて起こる確率を計算してよい。
プロセッサ31は更に、アライメント確率セット及び発生確率セットに従って且つ夫々のジャーナル記述データシーケンスから、ソースデータシーケンスのいずれか1つである翻訳されるべきソースデータシーケンスに対応する目標ジャーナル記述データシーケンスを決定するよう構成される。
プロセッサ31は更に、目標ジャーナル記述データシーケンスに従ってジャーナル記述テキストを生成するよう構成される。
メモリ34は、プロセッサ31が前述の機能を実施するためのプログラムコードを記憶するよう構成される。
本発明の実施形態によって提供される装置の機能実施のために、ジャーナル生成方法の関連する記載が参照されてよい。
本発明の実施形態において、ソースデータセットにおける夫々のソースデータシーケンスと、ジャーナル記述データセットにおける夫々のジャーナル記述データシーケンスとの間のアライメント確率は、アライメント確率セットを取得するために計算され;夫々のジャーナル記述データシーケンスがジャーナル記述データセットにおいて起こる確率は、発生確率セットを取得するために計算され;次いで、ソースデータシーケンスのいずれか1つである翻訳されるべきソースデータシーケンスに対応する目標ジャーナル記述データシーケンスは、アライメント確率セット及び発生確率セットに従って且つ夫々のジャーナル記述データシーケンスから決定され;そして、目標ジャーナル記述データシーケンスは、ジャーナル記述テキストに翻訳される。先行技術と比較して、本発明は、先行技術においてはジャーナルがルールに基づき自動的に生成される場合に新しいデータタイプが処理され得ないので、実際の使用における不十分な柔軟性の問題を回避する。本発明の実施形態において、ジャーナルの自動生成は、アライメント確率セット及び発生確率セットに基づき実施され、ソースデータのタイプの制限を有さない。すなわち、ジャーナルの自動生成は、様々な異なるタイプのソースデータに基づき実施されてよい。本発明の実施形態によって提供される装置は、実際の使用において優れた柔軟性を有する。
加えて、本発明の実施形態において、ジャーナルの自動生成は、アライメント確率セット及び発生確率セットに基づき実施され、このとき、アライメント確率セット及び発生確率セットは、多数のトレーニングデータを用いることによるモデルトレーニング及び学習を実行することによって、取得されてよい。多数のトレーニングデータは、アライメント確率セット及び発生確率セットに基づき自動的にジャーナルを生成する際におけるより高い精度につながる。
実施形態の具体的な実施において、メモリ34は、次のメモリ装置、すなわち、読み出し専用メモリ、ランダムアクセスメモリ、又は不揮発性ランダムアクセスメモリ、のうちの少なくとも1又はそれ以上を含み、メモリ34はプロセッサ31のための命令及びデータを提供する。
プロセッサ31は、集積回路チップであってよく、信号処理能力を備える。実装プロセスにおいて、前述の方法のステップは、プロセッサ31においてハードウェアの集積論理回路又はソフトウェア形式の命令をもちいることによって、完了されてよい。それらの命令は、本発明の実施形態において開示される方法を実行するために、それらにおけるプロセッサ31の協調により実施され制御されてよい。プロセッサ31はまた、汎用プロセッサ、デジタル信号プロセッサ(Digital Signal Processing,DSP)、特定用途向け集積回路(application specific integrated circuit)、フィールドプログラマブルゲートアレイ(Field Programming Gate Array,FPGA)若しくは他のプログラマブル論理コンポーネント、別個のゲート若しくはトランジスタ論理コンポーネント、又は別個のハードウェア部品であってよい。
汎用プロセッサは、マイクロプロセッサであってよく、あるいは、プロセッサはまた、何らかの共通プロセッサ、デコーダ、又は同様のものであってもよい。ステップは、本発明の実施形態において開示される方法を参照して、ハードウェアプロセッサ又はプロセッサにおけるハードウェア及びソフトウェアモジュールの組み合わせによって完了されることが直接具現されてよい。ソフトウェアモジュールは、ランダムアクセスメモリ、フラッシュメモリ、読み出し専用メモリ、プログラマブル読み出し専用メモリ、電気的消去可能なプログラマブル読み出し専用メモリ、又はレジスタのような、当該技術における成熟した記憶媒体に置かれてよい。
駆動回路3001は、ジャーナル生成装置におけるハードウェアの各部を駆動するよう構成され、それにより、ハードウェアの各部は正常に動作することができる。
加えて、ジャーナル生成装置のハードウェア部品は、バスシステム3000が、データバスに加えて、電源バス、制御バス、及び状態信号バスを更に含むところ、バスシステム3000を用いることによって結合される。なお、記載を明りょうにするよう、バスは、図3では集合的にバスシステム3000として表される。
任意に、ジャーナル生成装置において、プロセッサは更に、語彙的に処理されたソースデータを取得するように、ソースデータにおけるソースデータに対して語彙的処理を実行するよう構成される。
例えば、クラスタ化プロセッシングがソースデータセットにおけるGPSデータに対して実行され、それにより、短距離範囲内のGPSデータは1つのクラスタに分類される。このとき、対応する語彙的プロセッシングは、空間パーティショニング法を用いることによるクラスタ化プロセッシングであってよい。
例えば、100m×100mの範囲内の位置に対応するGPSデータは、集合的に1つのGPSカテゴリとして表され、プロセッシング後のソースデータは、例えば、MがGPSクラスタIDであるとして、GPS 1,GPS 2,・・・,GPS Mとして表される100m×100mの範囲内のGPSデータの各片に対応するGPSクラスタIDである。
プロセッサ31は更に、語彙的に処理されたジャーナル記述データを取得するように、ジャーナル記述データセットにおけるジャーナル記述データに対して語彙的プロセッシングを実行するよう構成される。
例えば、ジャーナル記述データセットにおけるジャーナル記述データは、パラグラフ「私は八達嶺長城を旅行した、私は仕事中だった、私は花を見に公園へ行った、且つ、私は家に戻った(I toured the Great Wall at Badaling, I was at work, I went to the park to see flowers, and I went back home)」である。対応する語彙的プロセッシングは、処理されたジャーナル記述データ「私は八達嶺長城を旅行した(I toured the Great Wall at Badaling)」、「私は仕事中だった(I was at work)」、「私は花を見に公園へ行った(I went to the park to see flowers)」、及び「私は家に戻った(I went back home)」を取得するようジャーナル記述データセットにおけるジャーナル記述データに対して実行される中国語単語分割プロセッシングであってよい。
確かに、実際の適用の異なる要件に従って、対応する語彙的プロセッシングはまた、ジャーナル記述データセットにおけるジャーナル記述データに対するフレーズ抽出であってよい。例えば、ジャーナル記述データセットにおけるジャーナル記述データは、複数のセンテンス、すなわち、「私はレストランで食事した(I had a meal at a restaurant)」、「コートで球技を楽しんだ(played a ball game at a court)」、及び「晩にゲームで遊んだ(played a game in the evening)」であり、フレーズ抽出プロセッシングが実行された後、「食事した(had a meal)」、「球技を楽しんだ(played a ball game)」及び「ゲームで遊んだ(played a game)」が取得されてよい。
語彙的プロセッシングは、主に、センテンスを変更する、例えば、1つのセンテンスに対して中国語単語分割を実行する、1つのセンテンスからフレーズを抽出する、等のために、使用される点が留意されるべきである。語彙的プロセッシングの前のデータが既に一語である場合は、対応する語彙的プロセッシング動作は実行されなくてよいことが理解され得る。
本発明の実施形態によって提供されるプロセッサ31の機能実施のために、ジャーナル生成方法におけるステップ1001及び102の関連する記述も参照されてよい。
更に、ジャーナル生成装置において、プロセッサ31は具体的に、同じプリセットされた時間期間内にソースデータセット及びジャーナル記述データセットから一対の並列テキストを構成するよう構成される。このとき、一対の並列テキストは、(S_all,T_all)として表現される。S_allは一対の並列テキストにおけるソースデータセットを表し、S_all=G1,・・・,Gmである。このとき、G1は、S_allにおける語彙的に処理されたソースデータの第1の片を表し、Gmは、S_allにおける語彙的に処理されたソースデータのm番目の片を表し、mは、ソースデータセットにおける語彙的に処理されたソースデータの片の個数である。そして、T_allは一対の並列テキストにおけるジャーナル記述データセットを表し、T_all=A1,・・・,Anである。このとき、A1は、T_allにおける語彙的に処理されたジャーナル記述データの第1の片を表し、Anは、T_allにおける語彙的に処理されたジャーナル記述データのn番目の片を表し、nは、ジャーナル記述データセットにおける語彙的に処理されたジャーナル記述データの片の個数である。
例えば、ソースデータセットは、初日におけるユーザのGPSデータに対して語彙的プロセッシングを実行するよって取得されるGPSデータであり、S1_all=GPS 1,・・・,GPS mとして表現され、ジャーナル記述データセットは、S1_allに対応する初日におけるユーザのアクティビティデータ記述であり、T1_all=Activity 1,・・・,Activity nとして表現される。一対の並列テキストは、初日におけるソースデータセット及びジャーナル記述データセットに基づき構成されてよく、(S1_all,T1_all)として表現される。
同様に、(S2_all,T2_all)も構成されてよく、このとき、S2_allは、2日目におけるソースデータセットを表し、T2_allは、S2_allに対応するジャーナル記述データセットを表す。類推によって、並列コーパスは、N日間のソースデータセット及びジャーナル記述データセットを用いることによって構成されてよく、これは、ST={(S1_all,T1_all),(S2_all,T2_all)・・・(Sn_all,Tn_all)}として表現される。
プロセッサ31は更に、具体的に、アライメント確率セットを取得するように、夫々のソースデータシーケンスと、夫々のソースデータシーケンスに夫々対応するジャーナル記述データシーケンスとの間のアライメント確率を計算するよう構成される。
ソースデータシーケンスは、S_allにおける語彙的に処理されたソースデータの少なくとも1つの片を含み、ジャーナル記述データシーケンスは、T_allにおける語彙的に処理されたジャーナル記述データの少なくとも1つの片を含む。
例えば、プロセッサ31は、アライメント確率セットを取得するように、IBM翻訳モデル2におけるアライメント確率を用いることによって、夫々のソースデータシーケンスと、夫々のソースデータシーケンスに夫々対応するジャーナル記述データシーケンスとの間のアライメント確率を計算してよい。
IBM翻訳モデル2におけるアライメント確率が、夫々のソースデータシーケンスと、夫々のソースデータシーケンスに夫々対応するジャーナル記述データシーケンスとの間のアライメント確率を計算するために使用される場合に、ソースデータシーケンスと、そのソースデータシーケンスに対応するジャーナル記述データシーケンスとの間のアライメント確率は、具体的な条件の下のアライメント確率である。
その具体的な条件は、[ソースデータシーケンス,ソースデータシーケンスに対応するジャーナル記述データシーケンス,セットS_allにおけるソースデータシーケンスの位置、セットT_allにおけるソースデータシーケンスに対応するジャーナル記述データシーケンスの位置,セットS_allの長さ,セットT_allの長さ]として表現される。
理解の簡単のために、本発明の実施形態において、ソースデータシーケンスはSと表され、ジャーナル記述データシーケンスはTと表され、ソースデータシーケンスとそのソースデータシーケンスに対応するジャーナル記述データシーケンスとの間のアライメント確率はP(S|T)と表される。
例えば、一対の並列テキスト(S1_all,T1_all)が存在し、IBM翻訳モデル2におけるアライメント確率を用いることによってアライメント確率を計算することは、次のように実施される:
並列テキストにおいて、ソースデータセットはS1_all=GPS 1,・・・,GPS mであり、ジャーナル記述データセットはT1_all=Activity 1,・・・,Activity nであるとする。
ソースデータシーケンスSがGPS 2であり、ジャーナル記述データシーケンスTはActivity 3であり、セットS1_allにおけるソースデータシーケンスの位置が2であり、セットT1_allにおけるジャーナル記述データシーケンスの位置が3であり、セットS1_allの長さが12であり、セットT1_allの長さが14である場合に、P(S|T)を計算するプロセスは次のとおりである:
{並列コーパスにおける[GPS 2,Activity 3,X,3,12,14]の発生回数Σ X=1}に対する{並列コーパスにおける[GPS 2,Activity 3,2,3,12,14]の発生回数}の比(Mは、セットS_allの長さである。)。
例えば、GPS 2の値が(116.45,39.92)であり、Activity 3の値が“tour”である場合に、並列コーパスSTにおける[(116.45,39.92),“tour”,2,3,12,14]の発生回数は、ジャーナル記述データセットの長さが14であり、ソースデータセットの長さが12であり、ジャーナル記述データセットにおけるジャーナル記述データシーケンス“tour”の位置が3であり、ソースデータシーケンス(116.45,39.92)の位置が2である場合の並列コーパス全体における発生回数を指す。
[GPS 2,Activity 3,X,3,12,14]の発生回の和は、ジャーナル記述データセットの長さが14であり、ソースデータセットの長さが12であり、ジャーナル記述データセットにおけるジャーナル記述データシーケンス“tour”の位置が3であり、ソースデータシーケンス(116.45,39.92)がソースデータセットのX番目の位置にある場合の並列コーパス全体における発生回数を指す。
本発明の実施形態によって提供されるプロセッサ31の機能実施のために、ジャーナル生成方法のステップ102の関連する記載も参照されてよい。
更に、ジャーナル生成装置において、プロセッサ31は具体的に、発生確率セットを取得するように、夫々のジャーナル記述データシーケンスがジャーナル記述データセットにおいて起こる確率を計算するよう構成される。
ジャーナル記述データシーケンスは、ジャーナル記述データセットにおける語彙的に処理されたジャーナル記述データの少なくとも1つの片を含む。
実際の適用において、プロセッサ31は、例えば、最大尤度推定法を用いることによって、夫々のジャーナル記述データシーケンスがジャーナル記述データセットにおいて起こる確率を計算してよく、これは、模範的な例を参照して具体的に記載される。
例えば、ジャーナル記述データセットは、次の3つのセンテンスである:
(1)JOHN READ HOLY BIBLE
(2)MARK READ A TEXT BOOK
(3)HE READ A BOOK BY DAVID
例えば、ジャーナル記述データシーケンスTがセンテンス(1)である計算を例とすると、ジャーナル記述データセットにおけるジャーナル記述データシーケンスTの発生確率はP(T)と表され、その場合に、P(T)を計算するプロセスは次のとおりである:
P(JOHN READ A BOOK)
=P(JOHN|<BOS>)×P(READ|JOHN)×P(A|READ)×P(BOOK|A)×P(<EOS>|BOOK)
=1/3×1/1×2/3×1/2×1/2
=0.06
このステップで、最大尤度推定法は、夫々のジャーナル記述データシーケンスがジャーナル記述データセットにおいて起こる確率を計算するために使用されてよく、加えて、ベイズ推定法、最大事後確率推定法、又は同様のものも使用されてよい点が留意されるべきであり、これは本願で限定されない。
本発明の実施形態によって提供されるプロセッサ31の機能実施のために、ジャーナル生成方法のステップ103の関連する記載も参照されてよい。
更に、ジャーナル生成装置において、プロセッサ31は具体的に、夫々のP(S|T)につてアライメント確率セットを探索し且つ夫々のP(T)について発生確率セットを探索する構成される。このとき、P(S|T)は、ソースデータシーケンスSとジャーナル記述データシーケンスTとの間のアライメント確率であり、P(T)は、ジャーナル記述データセットにおけるジャーナル記述データシーケンスTの発生確率である。
Sが翻訳されるべきソースデータシーケンスである場合に、プロセッサ31は更に、具体的に、Tが、P(S|T)×P(T)を最大値に到達させる前記目標ジャーナル記述データシーケンスであると決定するよう構成される
本発明の実施形態によって提供されるプロセッサ31の機能実施のために、ジャーナル生成方法のステップ104も参照されてよい。
更に、ジャーナル生成装置において、プロセッサ31は具体的に、翻訳されるべき異なるタイプのデータシーケンスにおいて含まれる時間識別子に従って、翻訳されるべき異なるタイプのデータシーケンスに従って取得される夫々の目標ジャーナル記述データシーケンスからジャーナル記述テキストを生成するよう構成される。
翻訳されるべきソースデータシーケンスにおけるソースデータの各片は、いつ取得が実行されるのかを示す時間識別子を含む。翻訳されるべきソースデータシーケンスにおけるソースデータは、ジャーナル記述データシーケンスにおけるジャーナル記述データに対応する。そのような対応は、ソースデータの一片がジャーナル記述データの一片に対応し、ソースデータの複数の片がジャーナル記述データの一片に対応し、又はソースデータの一片がジャーナル記述データの複数の片に対応することであってよい。対応の具体的な様態は、実際の適用に依存する。従って、複数の目標ジャーナル記述データシーケンスは、ジャーナル記述テキストのパラグラフを形成するようソースデータの時間識別子を用いることによって連結されてよい。
本発明の実施形態によって提供されるプロセッサ31の機能実施のために、ジャーナル生成方法のステップ105も参照されてよい。
本発明の実施形態は、主に、ジャーナルの自動翻訳及びプロセッシングに適用される。
本発明の実施形態に従うジャーナル生成装置は、無線端末又は有線端末であってよく、無線端末は、ユーザにボイス及び/又はデータ接続性を提供する装置、無線接続機能を備える携帯型装置、あるいは、無線モデムへ接続された他のプロセッシング装置を参照してよい。無線端末は、無線アクセスネットワーク(例えば、RAN,Radio Access Network)を用いることによって、1又はそれ以上のコアネットワークと通信してよい。無線端末は、ボイス及び/又はデータを無線アクセスネットワークと交換する携帯電話機(“セルラー”フォンとも呼ばれる。)のようなモバイル端末、又はモバイル端末を設けられたコンピュータ、例えば、可搬性の、ポケットサイズの、手持ち式の、コンピュータ埋込型の、又は車載式のモバイル機器であってよい。例えば、無線端末は、パーソナル通信サービス(PCS,Personal Communication Service)電話機、コードレス電話機、セッション開始プロトコル(SIP,Session Initiation Protocol)電話機、無線ローカルループ(WLL,Wireless Local Loop)局、及びパーソナルデジタルアシスタント(PDA,Personal Digital Assistant)のような装置であってよい。無線端末はまた、システム、加入者ユニット(Subscriber Unit)、加入者局(Subscriber Station)、移動局(Mobile Station)、モバイル(Mobile)、遠隔局(Remote Station)、アクセスポイント(Access Point)、遠隔端末(Remote Terminal)、アクセス端末(Access Terminal)、ユーザ端末(User Terminal)、ユーザエージェント(User Agent)、ユーザ装置(User Device)、又はユーザ設備(User Equipment)と呼ばれることもある。
当業者は、記載の便宜及び簡潔さのために、単に前述の機能モジュールの区分が一例として記載されていると明らかに理解することができる。実際の適用において、機能は、要件に基づき異なる機能モジュールに割り当てられ、それらによって実行されてよい。すなわち、装置の内部構造は、上述された機能の全て又は部分を実行する異なる機能モジュールに分割される。前述のシステム、装置、及びユニットの詳細な作業プロセスに関し、全技術の実施形態における対応するプロセスが参照されてよく、詳細はここで再び記載されない。
本願で与えられている幾つかの実施形態において、開示されているシステム、装置及び方法は、他の様態において実施されてよい点が理解されるべきである。例えば、記載される装置は、単に例である。例えば、モジュール又はユニット分割は、単に論理的な機能分割であり、実際の実施においては他の分割であってよい。例えば、複数のユニット又はコンポーネントは、他のシステムにまとめられ又は組み入れられてよく、あるいは、幾つかの特徴は、無視され又は実行されなくてよい。加えて、表示され又は論じられる相互結合、又は直接結合、又は通信接続は、幾つかのインターフェースを用いることによって実施されてよい。装置又はユニットの間の間接的な結合又は通信接続は、電気的、機械的、又は他の形態において実施されてよい。
別個の部分として記載されるユニットは、物理的に分離されても又はされなくてもよく、ユニットとして表示される部分は、物理的なユニットであっても又はなくてもよく、1つの地点に置かれても又は複数のネットワークユニットに配置されてもよい。ユニットの一部又は全ては、実際のニーズに基づき、実施形態における解決法の目的を達成するよう選択されてよい。
前述の実施形態の記載に基づき、当業者は、本発明が必須の共通ハードウェアとともにソフトウェアによって実施され得ると明らかに理解することができる。確かに、本発明はまた、ハードウェアのみによって実施されてよい。なお、前者は、好ましい実施モードである。そのような理解に基づき、本発明の技術的解決法は本質的に、又は先行技術に寄与する部分は、ソフトウェア製品の形で実施されてよい。コンピュータソフトウェア製品は、読み取り可能な記憶媒体、例えば、コンピュータのフロッピー(登録商標)ディスク、ハードディスク、又は光ディスクに記憶され、コンピュータ装置(パーソナルコンピュータ、サーバ、又はネットワーク装置であってよい。)に、本発明の実施形態において記載される方法を実行するよう命じる複数の命令を含む。
前述の記載は、本発明の具体的な実施形態にすぎず、本発明の保護範囲を制限するよう意図されない。本発明において開示される技術的範囲内当業者によって容易に理解される如何なる変形又は置換も、本発明の保護範囲内にあるべきである。従って、本発明の保護範囲は、特許請求の範囲の保護範囲に従うべきである。
21 取得モジュール
22 計算モジュール
23 翻訳モジュール
24 ジャーナル生成モジュール
25 語彙的プロセッシングモジュール
31 プロセッサ
34 メモリ
3000 システムバス
3001 駆動回路

Claims (18)

  1. ユーザアクティビティデータからテキスト記述情報であるジャーナルを生成するジャーナル生成装置の作動方法であって、
    ソースデータセットと、該ソースデータセットに対応するジャーナル記述データセットとを取得するステップと、
    アライメント確率セットを取得するよう、前記ソースデータセットにおける少なくとも1つのソースデータ片を含むソースデータシーケンスの夫々が、前記ジャーナル記述データセットにおける少なくとも1つのジャーナル記述データ片を含むジャーナル記述データシーケンスの夫々に翻訳される確率を表すアライメント確率を、前記ソースデータセットにおける各ソースデータシーケンスの位置、前記ジャーナル記述データセットにおける各ジャーナル記述データシーケンスの位置、前記ソースデータセットにおけるソースデータ片の数、及び前記ジャーナル記述データセットにおけるジャーナル記述データ片の数に基づき計算するステップと、
    発生確率セットを取得するよう、前記ジャーナル記述データシーケンスの夫々が前記ジャーナル記述データセットにおいて起こる発生確率を最大尤度推定法により計算するステップと、
    夫々のアライメント確率について前記アライメント確率セットを探索し且つ夫々の発生確率について前記発生確率セットを探索して、前記ジャーナル記述データシーケンスの中から、アライメント確率と発生確率との積が最大となるジャーナル記述データシーケンスを、前記ソースデータシーケンスの中のいずれか1つである翻訳されるべきソースデータシーケンスに対応する目標ジャーナル記述データシーケンスとして決定するステップと、
    パラグラフ、センテンス、又は単語である前記目標ジャーナル記述データシーケンスから前記ジャーナルを生成するステップと
    を有する作動方法。
  2. ソースデータ片を取得するよう、空間パーティショニング法を用いることによって前記ソースデータセットに対してクラスタ化プロセッシングを実行するステップと、
    ジャーナル記述データ片を取得するよう、前記ジャーナル記述データセットに対して単語分割プロセッシング又はフレーズ抽出プロセッシングを実行するステップと
    更に有する請求項1に記載の作動方法。
  3. アライメント確率を計算する前記ステップは、
    同じプリセットされた期間の時間内にソースデータセット及びジャーナル記述データセットから一対の並列テキストを構成するステップであって、一対の並列テキストが(S_all,T_all)として表現され、S_allは当該一対の並列テキストにおけるソースデータセットを表し、S_all=G1,・・・,Gmであり、G1はS_allにおける第1のソースデータ片を表し、GmはS_allにおけるm番目のソースデータ片を表し、mは当該ソースデータセットにおけるソースデータ片の個数であり、T_allは当該一対の並列テキストにおけるジャーナル記述データセットを表し、T_all=A1,・・・,Anであり、A1はT_allにおける第1のジャーナル記述データ片を表し、AnはT_allにおけるn番目のジャーナル記述データ片を表し、nは当該ジャーナル記述データセットにおけるジャーナル記述データ片の個数であるステップと、
    前記アライメント確率セットを取得するよう、S_allにおける少なくとも1つのソースデータ片を含むソースデータシーケンスの夫々が、T_allにおける少なくとも1つのジャーナル記述データ片を含むジャーナル記述データシーケンスの夫々に翻訳される確率を表す前記アライメント確率を計算するステップと
    を有する、請求項2に記載の作動方法。
  4. 発生確率を計算する前記ステップは、
    前記発生確率セットを取得するよう、前記ジャーナル記述データシーケンスの夫々が前記ジャーナル記述データセットにおいて起こる前記発生確率を前記最大尤度推定法により計算するステップであって、当該ジャーナル記述データシーケンスが、前記ジャーナル記述データセットにおける少なくとも1つのジャーナル記述データ片を含むステップ
    を有する、請求項2又は3に記載の作動方法。
  5. 夫々のアライメント確率について前記アライメント確率セットを探索し且つ夫々の発生確率について前記発生確率セットを探索して、前記ジャーナル記述データシーケンスの中から、アライメント確率と発生確率との積が最大となるジャーナル記述データシーケンスを、前記ソースデータシーケンスの中のいずれか1つである翻訳されるべきソースデータシーケンスに対応する目標ジャーナル記述データシーケンスとして決定する前記ステップは、
    ソースデータシーケンスSとジャーナル記述データシーケンスTとの間のアライメント確率であるP(S|T)ごとに前記アライメント確率セットを探索し且つ前記ジャーナル記述データセットにおける前記ジャーナル記述データシーケンスTの発生確率であるP(T)ごとに前記発生確率セットを探索するステップと、
    Sが前記翻訳されるべきソースデータシーケンスである場合に、Tが、P(S|T)×P(T)を最大値に到達させる前記目標ジャーナル記述データシーケンスであると決定するステップと
    を有する、請求項1乃至4のうちいずれか一項に記載の作動方法。
  6. 前記目標ジャーナル記述データシーケンスから前記ジャーナルを生成する前記ステップは、
    前記ソースデータシーケンスにおいて含まれる時間識別子に従って、複数の前記目標ジャーナル記述データシーケンスを連結することによって、前記ジャーナルを生成するステップ
    を有する、請求項1乃至5のうちいずれか一項に記載の作動方法。
  7. ユーザアクティビティデータからテキスト記述情報であるジャーナルを生成するジャーナル生成装置であって、
    ソースデータセットと、該ソースデータセットに対応するジャーナル記述データセットとを取得するよう構成される取得モジュールと、
    アライメント確率セットを取得するように、前記ソースデータセットにおける少なくとも1つのソースデータ片を含むソースデータシーケンスの夫々が、前記ジャーナル記述データセットにおける少なくとも1つのジャーナル記述データ片を含むジャーナル記述データシーケンスの夫々に翻訳される確率を表すアライメント確率を、前記ソースデータセットにおける各ソースデータシーケンスの位置、前記ジャーナル記述データセットにおける各ジャーナル記述データシーケンスの位置、前記ソースデータセットにおけるソースデータ片の数、及び前記ジャーナル記述データセットにおけるジャーナル記述データ片の数に基づき計算するよう、且つ、発生確率セットを取得するように、前記ジャーナル記述データシーケンスの夫々が前記ジャーナル記述データセットにおいて起こる発生確率を最大尤度推定法により計算するよう構成される計算モジュールと、
    夫々のアライメント確率について前記アライメント確率セットを探索し且つ夫々の発生確率について前記発生確率セットを探索して、前記ジャーナル記述データシーケンスの中から、アライメント確率と発生確率との積が最大となるジャーナル記述データシーケンスを、前記ソースデータシーケンスの中のいずれか1つである翻訳されるべきソースデータシーケンスに対応する目標ジャーナル記述データシーケンスとして決定するよう構成される翻訳モジュールと、
    パラグラフ、センテンス、又は単語である前記目標ジャーナル記述データシーケンスから前記ジャーナルを生成するよう構成されるジャーナル生成モジュールと
    を有するジャーナル生成装置。
  8. ソースデータ片を取得するよう、空間パーティショニング法を用いることによって前記ソースデータセットに対してクラスタ化プロセッシングを実行するよう構成される語彙的プロセッシングモジュールを更に有し、
    前記語彙的プロセッシングモジュールは更に、ジャーナル記述データ片を取得するよう、前記ジャーナル記述データセットに対して単語分割プロセッシング又はフレーズ抽出プロセッシングを実行するよう構成される、
    請求項7に記載のジャーナル生成装置。
  9. 前記計算モジュールは具体的に、同じプリセットされた期間の時間内にソースデータセット及びジャーナル記述データセットから一対の並列テキストを構成し、
    一対の並列テキストが(S_all,T_all)として表現され、S_allは当該一対の並列テキストにおけるソースデータセットを表し、S_all=G1,・・・,Gmであり、G1はS_allにおける第1のソースデータ片を表し、GmはS_allにおけるm番目のソースデータ片を表し、mは当該ソースデータセットにおけるソースデータ片の個数であり、T_allは当該一対の並列テキストにおけるジャーナル記述データセットを表し、T_all=A1,・・・,Anであり、A1はT_allにおける第1のジャーナル記述データ片を表し、AnはT_allにおけるn番目のジャーナル記述データ片を表し、nは当該ジャーナル記述データセットにおけるジャーナル記述データ片の個数であり、
    前記アライメント確率セットを取得するように、S_allにおける少なくとも1つのソースデータ片を含むソースデータシーケンスの夫々が、T_allにおける少なくとも1つのジャーナル記述データ片を含むジャーナル記述データシーケンスの夫々に翻訳される確率を表す前記アライメント確率を計算するよう構成される、
    請求項8に記載のジャーナル生成装置。
  10. 前記計算モジュールは具体的に、前記発生確率セットを取得するよう、前記ジャーナル記述データシーケンスの夫々が前記ジャーナル記述データセットにおいて起こる前記発生確率を前記最大尤度推定法により計算するよう構成され、当該ジャーナル記述データシーケンスが、前記ジャーナル記述データセットにおける少なくとも1つのジャーナル記述データ片を含む、
    請求項8又は9に記載のジャーナル生成装置。
  11. 前記翻訳モジュールは具体的に、
    ソースデータシーケンスSとジャーナル記述データシーケンスTとの間のアライメント確率であるP(S|T)ごとに前記アライメント確率セットを探索し且つ前記ジャーナル記述データセットにおける前記ジャーナル記述データシーケンスTの発生確率であるP(T)ごとに前記発生確率セットを探索し、
    Sが前記翻訳されるべきソースデータシーケンスである場合に、Tが、P(S|T)×P(T)を最大値に到達させる前記目標ジャーナル記述データシーケンスであると決定する
    よう構成される、
    請求項7乃至10のうちいずれか一項に記載のジャーナル生成装置。
  12. 前記ジャーナル生成モジュールは具体的に、前記ソースデータシーケンスにおいて含まれる時間識別子に従って、複数の前記目標ジャーナル記述データシーケンスを連結することによって、前記ジャーナルを生成するよう構成される、
    請求項7乃至11のうちいずれか一項に記載のジャーナル生成装置。
  13. ユーザアクティビティデータからテキスト記述情報であるジャーナルを生成するジャーナル生成装置であって、
    プロセッサ及びメモリを有し、
    前記メモリは、前記プロセッサによって実行される場合に該プロセッサに、
    ソースデータセットと、該ソースデータセットに対応するジャーナル記述データセットとを取得させ、
    アライメント確率セットを取得するように、前記ソースデータセットにおける少なくとも1つのソースデータ片を含むソースデータシーケンスの夫々が、前記ジャーナル記述データセットにおける少なくとも1つのジャーナル記述データ片を含むジャーナル記述データシーケンスの夫々に翻訳される確率を表すアライメント確率を、前記ソースデータセットにおける各ソースデータシーケンスの位置、前記ジャーナル記述データセットにおける各ジャーナル記述データシーケンスの位置、前記ソースデータセットにおけるソースデータ片の数、及び前記ジャーナル記述データセットにおけるジャーナル記述データ片の数に基づき計算させ、
    発生確率セットを取得するように、前記ジャーナル記述データシーケンスの夫々が前記ジャーナル記述データセットにおいて起こる発生確率を最大尤度推定法により計算させ、
    夫々のアライメント確率について前記アライメント確率セットを探索し且つ夫々の発生確率について前記発生確率セットを探索して、前記ジャーナル記述データシーケンスの中から、アライメント確率と発生確率との積が最大となるジャーナル記述データシーケンスを、前記ソースデータシーケンスの中のいずれか1つである翻訳されるべきソースデータシーケンスに対応する目標ジャーナル記述データシーケンスとして決定させ、
    パラグラフ、センテンス、又は単語である前記目標ジャーナル記述データシーケンスから前記ジャーナルを生成させる
    プログラムコードを記憶するよう構成される、
    ジャーナル生成装置。
  14. 前記プロセッサは更に、ソースデータ片を取得するよう、空間パーティショニング法を用いることによって前記ソースデータセットに対してクラスタ化プロセッシングを実行するよう構成され、
    前記プロセッサは更に、ジャーナル記述データ片を取得するよう、前記ジャーナル記述データセットに対して単語分割プロセッシング又はフレーズ抽出プロセッシングを実行するよう構成される、
    請求項13に記載のジャーナル生成装置。
  15. 前記プロセッサは具体的に、同じプリセットされた期間の時間内にソースデータセット及びジャーナル記述データセットから一対の並列テキストを構成し、
    一対の並列テキストが(S_all,T_all)として表現され、S_allは当該一対の並列テキストにおけるソースデータセットを表し、S_all=G1,・・・,Gmであり、G1はS_allにおける第1のソースデータ片を表し、GmはS_allにおけるm番目のソースデータ片を表し、mは当該ソースデータセットにおけるソースデータ片の個数であり、T_allは当該一対の並列テキストにおけるジャーナル記述データセットを表し、T_all=A1,・・・,Anであり、A1はT_allにおける第1のジャーナル記述データ片を表し、AnはT_allにおけるn番目のジャーナル記述データ片を表し、nは当該ジャーナル記述データセットにおけるジャーナル記述データ片の個数であり、
    前記アライメント確率セットを取得するよう、S_allにおける少なくとも1つのソースデータ片を含むソースデータシーケンスの夫々が、T_allにおける少なくとも1つのジャーナル記述データ片を含むジャーナル記述データシーケンスの夫々に翻訳される確率を表す前記アライメント確率を計算するよう構成される、
    請求項14に記載のジャーナル生成装置。
  16. 前記プロセッサは具体的に、前記発生確率セットを取得するよう、前記ジャーナル記述データシーケンスの夫々が前記ジャーナル記述データセットにおいて起こる前記発生確率を前記最大尤度推定法により計算するよう構成され、当該ジャーナル記述データシーケンスが、前記ジャーナル記述データセットにおける少なくとも1つのジャーナル記述データ片を含む、
    請求項14又は15に記載のジャーナル生成装置。
  17. 前記プロセッサは具体的に、
    ソースデータシーケンスSとジャーナル記述データシーケンスTとの間のアライメント確率であるP(S|T)ごとに前記アライメント確率セットを探索し且つ前記ジャーナル記述データセットにおける前記ジャーナル記述データシーケンスTの発生確率であるP(T)ごとに前記発生確率セットを探索し、
    Sが前記翻訳されるべきソースデータシーケンスである場合に、Tが、P(S|T)×P(T)を最大値に到達させる前記目標ジャーナル記述データシーケンスであると決定する
    よう構成される、
    請求項13乃至16のうちいずれか一項に記載のジャーナル生成装置。
  18. 前記プロセッサは具体的に、前記ソースデータシーケンスにおいて含まれる時間識別子に従って、複数の前記目標ジャーナル記述データシーケンスを連結することによって、前記ジャーナルを生成するよう構成される、
    請求項13乃至17のうちいずれか一項に記載のジャーナル生成装置。
JP2014126827A 2013-06-26 2014-06-20 ジャーナル生成のための方法及び装置 Active JP5934749B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201310260039.2A CN104252439B (zh) 2013-06-26 2013-06-26 日记生成方法及装置
CN201310260039.2 2013-06-26

Publications (2)

Publication Number Publication Date
JP2015011711A JP2015011711A (ja) 2015-01-19
JP5934749B2 true JP5934749B2 (ja) 2016-06-15

Family

ID=51136300

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014126827A Active JP5934749B2 (ja) 2013-06-26 2014-06-20 ジャーナル生成のための方法及び装置

Country Status (6)

Country Link
US (1) US8996360B2 (ja)
EP (1) EP2819026A3 (ja)
JP (1) JP5934749B2 (ja)
KR (1) KR101595479B1 (ja)
CN (1) CN104252439B (ja)
WO (1) WO2014206087A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140108103A1 (en) * 2012-10-17 2014-04-17 Gengo, Inc. Systems and methods to control work progress for content transformation based on natural language processing and/or machine learning
CN107133224B (zh) * 2017-04-25 2020-11-03 中国人民大学 一种基于主题词的语言生成方法
US11488602B2 (en) 2018-02-20 2022-11-01 Dropbox, Inc. Meeting transcription using custom lexicons based on document history
US10467335B2 (en) 2018-02-20 2019-11-05 Dropbox, Inc. Automated outline generation of captured meeting audio in a collaborative document context
CN109829080B (zh) * 2019-01-14 2020-12-22 广东科学技术职业学院 一种智能记录日迹的系统及方法
US11689379B2 (en) 2019-06-24 2023-06-27 Dropbox, Inc. Generating customized meeting insights based on user interactions and meeting media
US20230274099A1 (en) * 2020-09-25 2023-08-31 Life Quest Inc. Diary generation device, diary generation system, diary generation method, and program

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6324335B1 (en) * 1996-11-29 2001-11-27 Sony Corporation Editing system and editing method
JP2002215611A (ja) * 2001-01-16 2002-08-02 Matsushita Electric Ind Co Ltd 日記作成支援装置
EP1306775A1 (en) 2001-10-29 2003-05-02 BRITISH TELECOMMUNICATIONS public limited company Machine translation
JP2003288354A (ja) * 2002-03-28 2003-10-10 Seiko Epson Corp 行動記録の自動作成方法、情報記録媒体、及び行動記録自動作成システム
US7249012B2 (en) * 2002-11-20 2007-07-24 Microsoft Corporation Statistical method and apparatus for learning translation relationships among phrases
US7827297B2 (en) * 2003-01-18 2010-11-02 Trausti Thor Kristjansson Multimedia linking and synchronization method, presentation and editing apparatus
WO2004088643A2 (en) 2003-03-25 2004-10-14 Saul Shapiro Intergenerational interactive lifetime journaling/diary an advice/guidance system
US20040243422A1 (en) * 2003-05-30 2004-12-02 Weber Goetz M. Event management
AU2004202391A1 (en) 2003-06-20 2005-01-13 Microsoft Corporation Adaptive machine translation
US9020804B2 (en) * 2006-05-10 2015-04-28 Xerox Corporation Method for aligning sentences at the word level enforcing selective contiguity constraints
US7983898B2 (en) * 2007-06-08 2011-07-19 Microsoft Corporation Generating a phrase translation model by iteratively estimating phrase translation probabilities
US8138926B2 (en) * 2008-06-30 2012-03-20 Intel-Ge Care Innovations Llc Methods and apparatus for monitoring and guiding human subjects interacting with objects
US8140621B2 (en) * 2009-03-27 2012-03-20 T-Mobile, Usa, Inc. Providing event data to a group of contacts
US8631070B2 (en) * 2009-03-27 2014-01-14 T-Mobile Usa, Inc. Providing event data to a group of contacts
US8682342B2 (en) * 2009-05-13 2014-03-25 Microsoft Corporation Constraint-based scheduling for delivery of location information
US8583686B2 (en) * 2009-07-22 2013-11-12 University Of Ontario Institute Of Technology System, method and computer program for multi-dimensional temporal data mining
US20130166303A1 (en) * 2009-11-13 2013-06-27 Adobe Systems Incorporated Accessing media data using metadata repository
GB201003628D0 (en) * 2010-03-04 2010-04-21 Touchtype Ltd System and method for inputting text into electronic devices
US8447604B1 (en) * 2010-04-12 2013-05-21 Adobe Systems Incorporated Method and apparatus for processing scripts and related data
US8385723B2 (en) * 2010-06-18 2013-02-26 Microsoft Corporation Recording of sports related television programming
US9237393B2 (en) * 2010-11-05 2016-01-12 Sony Corporation Headset with accelerometers to determine direction and movements of user head and method
US8594485B2 (en) * 2010-12-30 2013-11-26 Taser International, Inc. Systems and methods for presenting incident information
US8600730B2 (en) * 2011-02-08 2013-12-03 Microsoft Corporation Language segmentation of multilingual texts
JP5421309B2 (ja) * 2011-03-01 2014-02-19 ヤフー株式会社 行動ログメッセージを生成して投稿する投稿装置及びその方法
US20120311416A1 (en) * 2011-06-03 2012-12-06 Hannes Richter Integrated hazard mapping system
CN102855263A (zh) * 2011-06-30 2013-01-02 富士通株式会社 一种对双语语料库进行句子对齐的方法及装置

Also Published As

Publication number Publication date
KR20150001665A (ko) 2015-01-06
EP2819026A3 (en) 2015-03-11
JP2015011711A (ja) 2015-01-19
WO2014206087A1 (zh) 2014-12-31
US8996360B2 (en) 2015-03-31
CN104252439B (zh) 2017-08-29
CN104252439A (zh) 2014-12-31
KR101595479B1 (ko) 2016-02-18
US20150006152A1 (en) 2015-01-01
EP2819026A2 (en) 2014-12-31

Similar Documents

Publication Publication Date Title
JP5934749B2 (ja) ジャーナル生成のための方法及び装置
CN103299361B (zh) 翻译语言
EP2518642A1 (en) Method and terminal device for updating word stock
US11494376B2 (en) Data query method supporting natural language, open platform, and user terminal
CN109783651A (zh) 提取实体相关信息的方法、装置、电子设备和存储介质
WO2013184953A1 (en) Spoken names recognition
CN103377652A (zh) 一种用于进行语音识别的方法、装置和设备
CN105486325A (zh) 具有语音处理机制的导航系统及其操作方法
US10042840B2 (en) Hybrid grammatical and ungrammatical parsing
WO2013134287A1 (en) Automatic input signal recognition using location based language modeling
CN104978045B (zh) 一种汉字输入方法及装置
WO2015043318A1 (zh) 自动回复方法及装置
CN114741070A (zh) 代码生成方法、装置、电子设备及存储介质
CN103970751A (zh) 多国语言网页转换系统及方法
KR20160005563A (ko) 문장 분석을 이용하는 전화 번호 안내 시스템 및 전화 번호 안내 방법
CN105203121A (zh) 在地理应用程序中动态地整合离线和在线建议
CN102999639A (zh) 一种基于语音识别字符索引的查找方法及系统
JP2022511139A (ja) 情報処理方法、装置および記憶媒体
CN103020306A (zh) 一种基于手势识别字符索引的查找方法及系统
CN103631822A (zh) 一种查询方法及电子设备
CN114296561A (zh) 用户词库的获取方法、候选词的生成方法及装置
CN113449069A (zh) 查找联系人的方法和相关设备
KR101350978B1 (ko) 어플리케이션을 이용하는 인맥 관리 시스템 및 인맥 관리 방법
CN108831473B (zh) 一种音频处理方法及装置
CN112052361A (zh) 搜索方法、装置、终端及存储介质

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150428

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150724

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160317

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160412

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160509

R150 Certificate of patent or registration of utility model

Ref document number: 5934749

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250