JP2018504728A - テンプレート構築方法及び装置、情報認識方法及び装置 - Google Patents
テンプレート構築方法及び装置、情報認識方法及び装置 Download PDFInfo
- Publication number
- JP2018504728A JP2018504728A JP2017552212A JP2017552212A JP2018504728A JP 2018504728 A JP2018504728 A JP 2018504728A JP 2017552212 A JP2017552212 A JP 2017552212A JP 2017552212 A JP2017552212 A JP 2017552212A JP 2018504728 A JP2018504728 A JP 2018504728A
- Authority
- JP
- Japan
- Prior art keywords
- preset keyword
- words
- information
- preset
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000010276 construction Methods 0.000 title claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 91
- 238000012545 processing Methods 0.000 claims description 29
- 238000000605 extraction Methods 0.000 claims description 15
- 238000000546 chi-square test Methods 0.000 claims description 14
- 239000000284 extract Substances 0.000 claims description 9
- 230000006854 communication Effects 0.000 description 67
- 238000004891 communication Methods 0.000 description 67
- 238000013145 classification model Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000007726 management method Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- KLDZYURQCUYZBL-UHFFFAOYSA-N 2-[3-[(2-hydroxyphenyl)methylideneamino]propyliminomethyl]phenol Chemical compound OC1=CC=CC=C1C=NCCCN=CC1=CC=CC=C1O KLDZYURQCUYZBL-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 201000001098 delayed sleep phase syndrome Diseases 0.000 description 1
- 208000033921 delayed sleep phase type circadian rhythm sleep disease Diseases 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/12—Messaging; Mailboxes; Announcements
- H04W4/14—Short messaging services, e.g. short message services [SMS] or unstructured supplementary service data [USSD]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Educational Administration (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
Abstract
本発明は、種別が予め設定された少なくとも1つのオリジナル情報を含むオリジナル情報サンプル集合を取得するステップと、オリジナル情報に予め設定されたキーワードが含まれている時に、予め設定されたキーワード集合に基づいて予め設定されたキーワードをマーキングすることによって、サンプルトレーニング集合を得るステップと、サンプルトレーニング集合における予め設定されたキーワードを含む文節に対して分割を行うことによって、複数の単語を得るステップと、複数の単語から少なくとも1つの特徴語を含む特定特徴集合を抽出するステップと、予め設定されたキーワードと特定特徴集合中の特徴語に基づいてテンプレートを構築するステップと、サンプルトレーニング集合中のマーキング結果に従ってテンプレートに対するトレーニングを行うステップと、を含むテンプレート構築方法及び装置、情報認識方法及び装置を提供する。本発明は情報認識の精度を向上させることができる。【選択図】図1
Description
本願は中国特許出願201510827530.8号(出願日:2015年11月24日)に基づき優先権を主張し、本願はこの中国特許出願を参照することによってその全ての内容を本願に援用する。
本発明はデータ処理技術に関し、特にテンプレート構築方法及び装置、情報認識方法及び装置に関する。
日常生活の中で、ユーザは様々な事業者ショートメッセージやその他の情報を受信した場合がある。事業者ショートメッセージを例にすれば、事業者からの通信料金残額提示ショートメッセージ、余剰トラフィック通知ショートメッセージ、銀行からのアカウント情報ショートメッセージやクレジットカード返済ショートメッセージが挙げられる。これらのショートメッセージはユーザへの通信料金残額、アカウント残額、余剰トラフィックなどの数字情報の通知・即時認識ための情報である。
本発明はテンプレート構築方法及び装置、情報認識方法及び装置を提供して、情報認識の確実性を向上させることができる。
本発明に係る実施例の第1の側面によれば、
種別が予め設定された少なくとも1つのオリジナル情報を含むオリジナル情報サンプル集合を取得するステップと、
上記オリジナル情報に予め設定されたキーワードが含まれている時に、予め設定されたキーワード集合に基づいて上記予め設定されたキーワードをマーキングすることによって、サンプルトレーニング集合を得るステップと、
上記サンプルトレーニング集合における上記予め設定されたキーワードを含む文節に対して分割を行うことによって、複数の単語を得るステップと、
上記複数の単語から少なくとも1つの特徴語を含む特定特徴集合を抽出するステップと、
上記予め設定されたキーワードと上記特定特徴集合中の上記特徴語に基づいて上記テンプレートを構築するステップと、
上記サンプルトレーニング集合中のマーキング結果に従って上記テンプレートに対してトレーニングを行うステップと、を含むテンプレート構築方法を提供する。
種別が予め設定された少なくとも1つのオリジナル情報を含むオリジナル情報サンプル集合を取得するステップと、
上記オリジナル情報に予め設定されたキーワードが含まれている時に、予め設定されたキーワード集合に基づいて上記予め設定されたキーワードをマーキングすることによって、サンプルトレーニング集合を得るステップと、
上記サンプルトレーニング集合における上記予め設定されたキーワードを含む文節に対して分割を行うことによって、複数の単語を得るステップと、
上記複数の単語から少なくとも1つの特徴語を含む特定特徴集合を抽出するステップと、
上記予め設定されたキーワードと上記特定特徴集合中の上記特徴語に基づいて上記テンプレートを構築するステップと、
上記サンプルトレーニング集合中のマーキング結果に従って上記テンプレートに対してトレーニングを行うステップと、を含むテンプレート構築方法を提供する。
一例として、上記複数の単語から特定特徴集合を抽出するステップは、カイ二乗検定によって上記複数の単語から上記特定特徴集合を抽出するステップ、または情報ゲインによって上記複数の単語から上記特定特徴集合を抽出するステップを含む。
一例として、上記予め設定されたキーワードと上記特定特徴集合中の上記特徴語に基づいて上記テンプレートを構築するステップは、上記特定特徴集合中の上記特徴語と予め設定されたキーワードとにより単純ベイズ分類器を構築し、各特徴語は上記単純ベイズ分類器において互いに独立しているステップを含む。
一例として、上記サンプルトレーニング集合中のマーキング結果に従って上記テンプレートに対するトレーニングを行うステップは、上記単純ベイズ分類器中の上記特徴語ごとに、上記サンプルトレーニング集合中のマーキング結果に基づいて、上記特徴語と上記予め設定されたキーワードとを有する文節である第1の文節の数量を統計するステップと、それぞれの上記特徴語、上記予め設定されたキーワード、および上記数量に基づいて、トレーニングした後の上記単純ベイズ分類器を得るステップと、を含む。
一例として、上記オリジナル情報に予め設定されたキーワードが含まれている時に、予め設定されたキーワード集合に基づいて上記予め設定されたキーワードをマーキングすることによって、サンプルトレーニング集合を得るステップは、上記オリジナル情報に数字情報が含まれている時に、数字情報の属性を示す情報を含む予め設定されたキーワード集合に基づいて上記数字情報に対してマーキングを行い、サンプルトレーニング集合を得るステップを含む。
本発明に係る実施例の第2の側面によれば、
認識しようとする目的情報における予め設定されたキーワードを含む文節を少なくとも1つ取得するステップと、
上記文節に対して分割を行い複数の単語を得て、上記複数の単語から少なくとも1つの特徴語を含む特定特徴集合を抽出するステップと、
上記予め設定されたキーワード、特徴語及び予め構築されたテンプレートに基づいて、上記文節における予め設定されたキーワードのマーキング結果を認識するステップと、を含む情報認識方法を提供する。
認識しようとする目的情報における予め設定されたキーワードを含む文節を少なくとも1つ取得するステップと、
上記文節に対して分割を行い複数の単語を得て、上記複数の単語から少なくとも1つの特徴語を含む特定特徴集合を抽出するステップと、
上記予め設定されたキーワード、特徴語及び予め構築されたテンプレートに基づいて、上記文節における予め設定されたキーワードのマーキング結果を認識するステップと、を含む情報認識方法を提供する。
一例として、上記方法は、認識したマーキング結果として予め設定されたマーキング結果である文節の数量が複数である場合、認識確率が最も高い文節における予め設定されたキーワードを予め設定されたマーキング結果の情報とするステップをさらに含む。
一例として、上記複数の単語から特定特徴集合を抽出するステップは、カイ二乗検定によって上記複数の単語から上記特定特徴集合を抽出するステップ、または情報ゲインによって上記複数の単語から上記特定特徴集合を抽出するステップを含む。
一例として、上記予め設定されたキーワードは数字情報であり、上記マーキング結果は上記数字情報の属性である。
本発明に係る実施例の第3の側面によれば、
種別が予め設定された少なくとも1つのオリジナル情報を含むオリジナル情報サンプル集合を取得するためのサンプル取得モジュールと、
上記オリジナル情報に予め設定されたキーワードが含まれている時に、予め設定されたキーワード集合に基づいて上記予め設定されたキーワードをマーキングすることによって、サンプルトレーニング集合を得るためのサンプル処理モジュールと、
上記サンプルトレーニング集合における上記予め設定されたキーワードを含む文節に対して分割を行うことによって、複数の単語を得るための分割処理モジュールと、
上記複数の単語から少なくとも1つの特徴語を含む特定特徴集合を抽出するための特徴抽出モジュールと、
上記予め設定されたキーワードと上記特定特徴集合中の上記特徴語に基づいて上記テンプレートを構築するためのテンプレート構築モジュールと、
上記サンプルトレーニング集合中のマーキング結果に従って上記テンプレートに対するトレーニングを行うためのテンプレートトレーニングモジュールと、を備えるテンプレート構築装置を提供する。
種別が予め設定された少なくとも1つのオリジナル情報を含むオリジナル情報サンプル集合を取得するためのサンプル取得モジュールと、
上記オリジナル情報に予め設定されたキーワードが含まれている時に、予め設定されたキーワード集合に基づいて上記予め設定されたキーワードをマーキングすることによって、サンプルトレーニング集合を得るためのサンプル処理モジュールと、
上記サンプルトレーニング集合における上記予め設定されたキーワードを含む文節に対して分割を行うことによって、複数の単語を得るための分割処理モジュールと、
上記複数の単語から少なくとも1つの特徴語を含む特定特徴集合を抽出するための特徴抽出モジュールと、
上記予め設定されたキーワードと上記特定特徴集合中の上記特徴語に基づいて上記テンプレートを構築するためのテンプレート構築モジュールと、
上記サンプルトレーニング集合中のマーキング結果に従って上記テンプレートに対するトレーニングを行うためのテンプレートトレーニングモジュールと、を備えるテンプレート構築装置を提供する。
一例として、上記特徴抽出モジュールは、カイ二乗検定によって上記複数の単語から上記特定特徴集合を抽出するステップ、または情報ゲインによって上記複数の単語から特定特徴集合を抽出するステップによって、複数の単語から特定特徴集合を抽出する。
一例として、上記テンプレート構築モジュールは、上記特定特徴集合中の上記特徴語と上記予め設定されたキーワードとにより単純ベイズ分類器を構築し、各特徴語は上記単純ベイズ分類器において互いに独立している。
一例として、上記テンプレートトレーニングモジュールは、上記単純ベイズ分類器中の上記特徴語ごとに、上記サンプルトレーニング集合中のマーキング結果に基づいて、上記特徴語と上記予め設定されたキーワードとを有する文節である第1の文節の数量を統計するとともに、それぞれの上記特徴語、上記予め設定されたキーワードおよび上記数量に基づいて、トレーニングした後の上記単純ベイズ分類器を得る。
一例として、上記予め設定されたキーワードは数字情報であり、上記マーキング結果は上記数字情報の属性である。
本発明に係る実施例の第4の側面によれば、
認識しようとする目的情報における予め設定されたキーワードを含む文節を少なくとも1つ取得するための文節取得モジュールと、
上記文節に対して分割を行い複数の単語を得て、上記複数の単語から少なくとも1つの特徴語を含む特定特徴集合を抽出するための単語抽出モジュールと、
上記予め設定されたキーワード、特徴語及び予め構築されたテンプレートに基づいて、上記文節における予め設定されたキーワードのマーキング結果を認識するための認識処理モジュールと、を備える情報認識装置を提供する。
認識しようとする目的情報における予め設定されたキーワードを含む文節を少なくとも1つ取得するための文節取得モジュールと、
上記文節に対して分割を行い複数の単語を得て、上記複数の単語から少なくとも1つの特徴語を含む特定特徴集合を抽出するための単語抽出モジュールと、
上記予め設定されたキーワード、特徴語及び予め構築されたテンプレートに基づいて、上記文節における予め設定されたキーワードのマーキング結果を認識するための認識処理モジュールと、を備える情報認識装置を提供する。
一例として、上記認識処理モジュールは、認識のマーキング結果として予め設定されたマーキング結果である文節の数量が複数である場合、認識確率が最も高い文節における予め設定されたキーワードを予め設定されたマーキング結果の情報とする。
一例として、上記単語抽出モジュールは、カイ二乗検定によって上記複数の単語から上記特定特徴集合を抽出するステップ、または情報ゲインによって上記複数の単語から上記特定特徴集合を抽出するステップによって、複数の単語から特定特徴集合を抽出する。
一例として、上記予め設定されたキーワードは数字情報であり、上記マーキング結果は上記数字情報の属性である。
本発明に係る実施例の第5の側面によれば、
プロセッサーと、
プロセッサーにより実行可能なコマンドを記憶するメモリと、
を備え、
上記プロセッサーは、種別が予め設定された少なくとも1つのオリジナル情報を含むオリジナル情報サンプル集合を取得し、上記オリジナル情報に予め設定されたキーワードが含まれている時に、予め設定されたキーワード集合に基づいて上記予め設定されたキーワードをマーキングすることによって、サンプルトレーニング集合を得て、上記サンプルトレーニング集合における上記予め設定されたキーワードを含む文節に対して分割を行うことによって、複数の単語を得て、上記複数の単語から少なくとも1つの特徴語を含む特定特徴集合を抽出し、上記予め設定されたキーワードと上記特定特徴集合中の上記特徴語に基づいて上記テンプレートを構築し、上記サンプルトレーニング集合中のマーキング結果に従って上記テンプレートに対するトレーニングを行うように配置されるテンプレート構築装置を提供する。
プロセッサーと、
プロセッサーにより実行可能なコマンドを記憶するメモリと、
を備え、
上記プロセッサーは、種別が予め設定された少なくとも1つのオリジナル情報を含むオリジナル情報サンプル集合を取得し、上記オリジナル情報に予め設定されたキーワードが含まれている時に、予め設定されたキーワード集合に基づいて上記予め設定されたキーワードをマーキングすることによって、サンプルトレーニング集合を得て、上記サンプルトレーニング集合における上記予め設定されたキーワードを含む文節に対して分割を行うことによって、複数の単語を得て、上記複数の単語から少なくとも1つの特徴語を含む特定特徴集合を抽出し、上記予め設定されたキーワードと上記特定特徴集合中の上記特徴語に基づいて上記テンプレートを構築し、上記サンプルトレーニング集合中のマーキング結果に従って上記テンプレートに対するトレーニングを行うように配置されるテンプレート構築装置を提供する。
本発明に係る実施例の第6の側面によれば、
プロセッサーと、
プロセッサーにより実行可能なコマンドを記憶するメモリと、
を備え、
上記プロセッサーは、認識しようとする目的情報における予め設定されたキーワードを含む文節を少なくとも1つ取得し、上記文節に対して分割を行い複数の単語を得て、上記複数の単語から少なくとも1つの特徴語を含む特定特徴集合を抽出し、上記予め設定されたキーワード、特徴語及び予め構築されたテンプレートに基づいて、上記文節における予め設定されたキーワードのマーキング結果を認識するように配置される情報認識装置を提供する。
プロセッサーと、
プロセッサーにより実行可能なコマンドを記憶するメモリと、
を備え、
上記プロセッサーは、認識しようとする目的情報における予め設定されたキーワードを含む文節を少なくとも1つ取得し、上記文節に対して分割を行い複数の単語を得て、上記複数の単語から少なくとも1つの特徴語を含む特定特徴集合を抽出し、上記予め設定されたキーワード、特徴語及び予め構築されたテンプレートに基づいて、上記文節における予め設定されたキーワードのマーキング結果を認識するように配置される情報認識装置を提供する。
本発明に係る実施例により提供される技術案は、予め設定されたキーワードを含むサンプルに基づいてトレーニングを行うことにより、認識用のテンプレートを構築し、このテンプレート認識情報におけるキーワード基づいて結果をマーキングすることによって、情報認識がより確実になる有益な効果を有する。
以上の一般的な表記や詳細な説明は一例として本発明をわかりやすく説明するためのものだけであって、本発明を限定するものではないことは言うまでもない。
ここの図面は明細書に合併されて本明細書の一部を構成し、本発明に係る実施例を示し、明細書とともに本発明の原理を解釈するためのものである。
ここでは図面に示す例示的な実施例を詳細に説明する。以下の説明における図面について、特に明示しない限り、各図面には同一の番号が同一または類似の要素を示す。本発明に該当する全ての実施形態は以下の例示的な実施例における実施形態に限定されるものではない。逆に、これらは特許請求の範囲に記載される本発明のいくつかの側面に一致する装置及び方法の例として示すものである。
本発明は、構築されたテンプレートにより情報種別を認識する方式を提供して、例えば、テンプレートで事業者ショートメッセージ中の数字情報の種別を認識してもよく、その他の情報を認識してもよい。図1は例示的な実施例によるテンプレート構築方法を示すフローチャートである。
ステップ101において、種別が予め設定された少なくとも1つのオリジナル情報を含むオリジナル情報サンプル集合を取得する。
例えば、事業者ショートメッセージを認識する例として、オリジナル情報が事業者ショートメッセージであり、例えばスマートフォンでショートメッセージを受信してからユーザへ報知しテンプレートを構築するためのものである。予め設定された種別のオリジナル情報は、構築するテンプレートに用いられる認識用の情報種別である。例えば、事業者ショートメッセージ中の通信料金情報を認識するためのテンプレートを構築すれば、オリジナル情報サンプル集合に少なくとも1つの通信料金情報を有するショートメッセージが含まれる。この場合、通信料という種別は予め設定された種別である。
ステップ102において、上記オリジナル情報に予め設定されたキーワードが含まれている時に、予め設定されたキーワード集合に基づいて上記予め設定されたキーワードをマーキングすることによって、サンプルトレーニング集合を得る。
例えば、予め設定されたキーワードはオリジナル情報の種別を認識する場合に、主に当該予め設定されたキーワードの種別を認識するものである。例えば、スマートフォンで事業者から1つの通信料金残額通知用のショートメッセージを受信した場合に、通信料金残額が12元であると、「12」を予め設定されたキーワードとし、この予め設定されたキーワードに対してマーキングすることは、このキーワードの種別に対してマーキングを行う。例えば、「12」は入金ではなく通信料金残額である。オリジナル情報サンプル集合中のオリジナル情報の予め設定されたキーワードに対してマーキングした後であれば、オリジナル情報サンプル集合をサンプルトレーニング集合と呼ぶことができる。
ステップ103において、上記サンプルトレーニング集合における上記予め設定されたキーワードを含む文節に対して分割を行うことによって、複数の単語を得る。
例えば、分割で得られた単語には予め設定されたキーワードを含んでも良い。例えば、事業者ショートメッセージを例として、通信料金残額を通知する事業者ショートメッセージに対して、分割した後は予め設定されたキーワード12を含んでも良く、その他の単語、例えば「あなた」や「の」などを含んでもよい。
ステップ104において、上記複数の単語から少なくとも1つの特徴語を含む特定特徴集合を抽出する。
例えば、ステップ103において分割して得られた単語から、予め設定されたキーワードの種別の認識に寄与しない単語、例えば「あ」、「はい」などの単語を選別してから、残りの単語でテンプレートの構築を行う。この特定特徴集合に含まれる特徴語は、選別された後の単語であってもよい。
ステップ105において、上記予め設定されたキーワードおよび上記特定特徴集合中の上記特徴語に基づいて上記テンプレートを構築する。
例えば、テンプレート構築方法は、分類器を利用して上記ステップで得られた特徴語および予め設定されたキーワードに基づいてテンプレートの構築を行うなどの様々な方法がある。
ステップ106において、上記サンプルトレーニング集合中のマーキング結果に基づいて上記テンプレートに対してトレーニングを行う。
トレーニングを行うことによって、このテンプレートは1つの情報に対してその種別を認識するためのモデルに用いられることができ、例えば、1つの情報または情報を含む内容をこのテンプレートに入力すれば、情報の種別を出力、またはこの情報がそれぞれ各既知種別に属する確率を得ることができる。
本実施例のテンプレート構築方法によれば、予め設定されたキーワードを含むサンプルに基づいてトレーニングを行うことにより、認識用のテンプレートを構築し、当該テンプレートを用いて情報種別を認識する。このように、テンプレートによって種別を認識する方式によれば、情報認識がより確実になる。
図2は例示的な実施例による情報認識方法のフローチャートであり、この方法は図1におけるトレーニングしたテンプレートを用いて情報の種別を認識することができる。
ステップ201において、認識しようとする目的情報における予め設定されたキーワードを含む文節を少なくとも1つ取得する。
例えば、目的情報が事業者ショートメッセージである場合に、このショートメッセージ中の少なくとも1つの文節が得られ、例えば「こんにちは」を1つの文節とし、「あなたの通信料金残額が12元です」をもう1つの文節とすることができる。少なくとも1つの文節に予め設定されたキーワード、例えば通信料金残額の数字が含まれる。
ステップ202において、上記文節に対して分割を行い複数の単語を得て、上記複数の単語から少なくとも1つの特徴語を含む特定特徴集合を抽出する。
ステップ203において、上記予め設定されたキーワード、特徴語及び予め構築されたテンプレートに基づいて、上記文節における予め設定されたキーワードのマーキング結果を認識する。
例えば、このステップにおいては、トレーニングに基づいて得られたテンプレートによって、情報の種別を認識できる。具体的には、情報における予め設定されたキーワードのマーキング結果を認識できる。例えば、事業者ショートメッセージを認識する例として、テンプレートを利用して、予め設定されたキーワードのマーキング結果が通信料金残額であることを認識できる。
本実施例の情報認識方法によれば、予め構築されたテンプレートによって、情報種別を認識できる。このように、テンプレートによって種別を認識する方式によれば、情報認識がより確実になる。
以下、ショートメッセージ中の数字情報の認識を例として、本発明の方法の事業者ショートメッセージ認識への適用を説明する。まず、ショートメッセージ中の数字情報を認識する例を幾つか挙げる。
例示的には、ショートメッセージの「あなたの通信料金残額は10元未満です」について、本方法を適用すれば、「通信料金残額--10元」という情報、ある種別の数字の値を認識できる。
また、例えばショートメッセージの「あなたの本月のトラフィック残りは845MBです」について、本発明の方法を適用すれば、「トラフィック残り-845MB」という情報を認識できる。
尚、例えばショートメッセージの「あなたの贈与金残額は344元で、ご確認してください」について、本発明の方法を適用すれば、「贈与金残額--344元」という情報を認識できる。
ユーザが事業者から受信したショートメッセージには、例えば以上のようなタイプなどの様々なショートメッセージが含まれ、且つ1つのショートメッセージに複数の種別の数字情報が含まれる場合があり、この方法を適用することによって、どの種別の数字情報を認識しようとするかは予め設定でき、「予め設定された種別」と称する。
例えば、仮に本発明の数字情報認識方法において、「通信料金残額」のような種別を「予め設定された種別」として決定するとすれば、ユーザが受信したショートメッセージが「あなたの贈与金残額が344元で、ご確認してください」である場合に、このショートメッセージに数字344が含まれたとしても、予め設定された種別ではないから、nullが返される。すなわち、結果はゼロであり、目的の「通信料金残額」という種別の数字情報がない。一方、ショートメッセージの「あなたの通信料金残額が10元未満です」における数字情報「10」の種別が「通信料金残額」と認識された場合には、「10」を認識数字として返す。
図3には本発明の方法によってショートメッセージ中の数字情報を認識するシステムを示し、図3に示すように、例えば、このシステムはスマート端末11とサーバ12を含む。スマート端末11は事業者ショートメッセージを受信できるユーザのスマートフォンであっても良い。サーバ12とスマートフォンとの間において双方向通信や情報転送が行われる。
本発明の例には、数字情報を認識する場合にテンプレートを使用する必要があり、この例において、テンプレートを分類モデルと呼ぶ。その分類モデルは、ショートメッセージ中の数字情報の種別を認識する機能を果す。分類モデルは、サーバ12がサンプルを収集してモデルトレーニングを行うことにより得られることができ、さらにトレーニングにより得られた分類モデルをスマート端末11へ送信し、スマート端末11によりこのモデルを用いてショートメッセージ中の数字情報に対して認識を行う。本発明の方法によって通信料金残額を認識する例は、サーバ側のモデルトレーニング及びスマートフォン側のモデルを用いた数字情報認識の過程を含み、以下、それぞれ説明する。
サーバ側でモデルトレーニングを行う。
図4は例示的な実施例によるモデルトレーニングのフローチャートであり、サーバが図4に示すフローに従いモデルトレーニングを行い、通信料金残額を認識する例にすると、以下のようなステップを含む。
ステップ401において、複数の種別が既知の数字情報を含む文節サンプルを取得する。
このステップではモデルトレーニング用のサンプルを取得でき、例えば、サーバは、オリジナル情報である事業者ショートメッセージを収集することができる。収集の方式は、複数の端末(例えばスマートフォン)が事業者ショートメッセージを受信してから自主的にサーバへ報知する方式、またはサーバが定期的に端末からショートメッセージを取得する方式であっても良い。通信料金残額を認識するこの例において、収集された事業者ショートメッセージには少なくとも1つ通信料金残額を通知するショートメッセージが含まれていれば良い。
ショートメッセージを取得した後、ショートメッセージから金額を含む文節を抽出して正規表現で金額を認識する。正規表現は文字列の取り扱いに関する論理式であって、事前定義された特定文字、及びこれらの特定文字の組み合わせによって構成された1つの「規則文字列」であり、文字列に関するフィルタロジックを表現するものである。
金額を含む文節で構成された集合を「T」マークとすることができる。例えば、この集合Tには「あなたの通信料金残額が64.8元です」、「あなたの協議金残額が924元です」、「あなたの贈与金残額が344元です」などの文節が含まれる。
ステップ402において、各文節に対してマーキングを行うことができる。
例えば、このステップでは各文節中の、例えば64.8、924などのオリジナル情報に含まれる予め設定されたキーワードと呼ばれる数字情報の種別を認識することができる。この例では、手動でこれらの単語の種別に対してマーキングしたが、その他の応用例では、予め設定されたキーワード集合に基づいてサーバにより自動的にキーワードに対してマーキングが行われても良く、このキーワード集合には予め設定されたキーワード及びその種別の情報が含まれることができる。例えば、予め設定されたキーワード集合には上記数字情報の属性を示す情報が含まれ、この予め設定されたキーワード集合に基づいてオリジナル情報における数字情報に対してマーキングを行う。
この例では、種別の名称がカスタマイズ名称であっても良い。例えば、この例では「通信料金残額」、「その他の残額」、「非残額」という3つの種別が含まれることができる。例示的には、上記ステップ401における文節に対して数字情報種別のマーキングを行い、64.8を「通信料金残額」、924を「その他の残額」、344を「非残額」としてマーキングすることができる。マーキングされた文節の集合をT_tagと呼び、この集合中の各文節には数字情報が含まれ、且つ種別が既知である。
マーキングされた後のオリジナル情報サンプル集合をサンプルトレーニング集合と呼び、サンプルトレーニング集合には、オリジナル情報に含まれる予め設定されたキーワードに対してマーキングを行い、例えば64.8を「通信料金残額」としてマーキングする。
ステップ403において、マーキングされた後の文節集合中の各文節に対して分割を行う。
例えば、このステップではT_tag集合中の文節に対して分割を行い、例えば[あなた]、[の]、[通信料金]、[残額]、[64.8]、[元]、[協議金]、[は]などの複数の単語が得られる。ここで、例えば[64.8]のような予め設定されたキーワードが含まれてもよい。分割して得られたこれらの単語を「特徴語」と呼び、特徴語の集合マークはWである。
ステップ404には、カイ二乗検定または情報ゲインによって、上記分割した単語に対して選別を行い、選別した後の特徴集合を得る。
例えば、上記のステップ303で分割して得られた各特徴語には、種別トレーニングに寄与しない単語が含まれる。その選択して得られた特徴語を最適化するために、これらの単語を除去する方が好ましい。このステップではカイ二乗検定または情報ゲインによって特徴語について選別を行うことができる。
ここで、カイ二乗検定では特徴と種別との関連性によって数値化を行い、関連性が強ければ強いほど、特徴得点が高く、当該特徴が保留される可能性が高い。情報ゲインでは、特徴が分類システムのためにどれほどの情報をもたらすことができるかを重要性の評価標準とし、もたらす情報が多ければ多いほど、この特徴が重要である。カイ二乗検定または情報ゲインによれば特徴語の重要度を数値化することができ、したがって最適な選択により最適された後の特徴語集合マークをFとすることができる。例えば、ステップ403における特徴語について、[が]、[の]などの単語を除去することができる。このステップでは分割して得られた複数の単語から少なくとも1つの選別した後に保留された特徴語を含む特定の特徴集合を抽出する。
ステップ405には、数字情報種別をトレーニング目的として、選別した特徴集合に基づいて単純ベイズ分類器を用いてモデルトレーニングを行い、予め設定された分類モデルを得る。
例えば、文節中の金額の種別をトレーニング目的として、ステップ404で選別した特徴語集合Fを用い、T_tagに対してトレーニングを行い、トレーニングモデルとしては単純ベイズ分類器を使用することができる。単純ベイズ分類器の基本方法は、データをまとめた上に、ある特徴による各種別の確率を算出することによって、分類を実現するものである。単純ベイズ分類器は、本発明の例のようなサンプル量が少なくテキストが短い場合のトレーニングにおいては、分類効果を比較的によくできる。この例では、特徴語の各種別に属する確率をそれぞれ算出することができる。トレーニングして得られたモデルをMとして示すことができる。
このステップでは、予め設定されたキーワードおよび特定特徴集合に基づいてテンプレートを構築し、サンプルトレーニング集合中のマーキング結果に基づいてテンプレートに対してトレーニングを行う。例えば、サンプルトレーニング集合中のマーキング結果に「64.8を通信料金残額としてマーキングする」が含まれ、サンプル中の全ての数字に対して種別をマーキングし、ショートメッセージから抽出した[通信料金]、[残額]などの特徴語に基づけば、単純ベイズ分類器というテンプレートを構築でき、各特徴語は上記単純ベイズ分類器において互いに独立している。このテンプレートに対してトレーニングを行うと、トレーニングした後の単純ベイズ分類器によってある情報の種別が得られる。
例えば、テンプレートに対してトレーニングを行う場合に、単純ベイズ分類器中の特徴語ごとに、サンプルトレーニング集合中のマーキング結果に基づいて、上記特徴語と上記予め設定されたキーワードを含む文節である第1の文節の数量を統計することができる。それぞれの上記特徴語、上記予め設定されたキーワードおよび上記数量に基づいて、トレーニングした後の上記単純ベイズ分類器を得る。このようなトレーニングした後の単純ベイズ分類器によって各特徴語の各種別に属する確率がそれぞれ得られる。
本実施例はサーバにより文節サンプルをトレーニングして分類モデルを得て、ショートメッセージ中の予め設定された目的種別の数字情報を認識するように分類モデルをスマート端末へ送信する。このようなモデル認識方式によれば、数字情報認識の精度が高い。
サーバはトレーニングによってモデルMが得られた後、このモデルでショートメッセージ中の数字情報を認識するように該モデルをスマートフォンへ送信する。
スマートフォン側で数字情報を認識する。
図5は例示的な実施例によるモデル認識のフローチャートであり、スマート端末で図5に示すフローに従いモデルによる数字情報認識が行われ、通信料金残額の認識を例として、以下のステップを含む。
ステップ501において、認識しようとするショートメッセージを受信する。
例えば、このステップでは、スマートフォンで1つの認識しようとする目的情報である事業者ショートメッセージを受信する。
ステップ502において、認識しようとするショートメッセージに金額が含まれるか否かを判断する。
このステップでは、YESと判断された場合に、継続してステップ503を行い、NOと判断された場合に、NULLを返す。
ステップ503において、認識しようとするショートメッセージにおける金額を含む文節を少なくとも1つ取得する。
例えば、認識しようとするショートメッセージに複数の文節が含まれる可能性があり、例えば、「あなたの贈与金残額は344元です、ご確認してください、問題があればご連絡してください…….」というショートメッセージには多数の文節が含まれ、このステップでは数字情報を含む文節さえ選択すればよく、この例では、数字情報が金額である。例えば、「あなたの贈与金残額は344元です」は数字情報「344」を含む文節であるため選択するが、「問題があればご連絡してください」の文節は、数字情報を含まないため選択しなくてもよい。これらの文節にはすべて予め設定されたキーワードが含まれ、例えば344などのような数字情報が含まれる。
ステップ504において、文節に対して分割を行い、特徴集合Fに基づいて特徴語を抽出する。
例えば、このステップでは図4の実施例で得られた特徴集合Fに基づいて、ステップ503で得られた文節におけるFに属する単語のみを抽出することができる。
ステップ505では、モデルMと抽出した特徴語によって、文節の数字情報の種別を予測する。
このステップではトレーニングして得られたモデル及び抽出した特徴語、予め設定されたキーワードなどに基づいて、ショートメッセージ中の数字のマーキング結果、すなわち数字の種別を認識でき、例えばこの例ではショートメッセージ中の数字が通信料金残額であるか否かを認識することができる。例えば、ある一つ文節について、この文節中の各特徴語の各種別に属する確率に基づいて、この文節中の金額の各金額種別(「通信料金残額」、「その他の残額」または「非残額」)に属する確率が得られると、予測確率が最も高い種別をこの文節中の金額が属する種別とする。
図5に示すように、認識しようとするショートメッセージにおける少なくとも1つの文節について、金額が「通信料金残額」と決定された文節がなければ、NULLを返す。認識しようとするショートメッセージに金額が「通信料金残額」と決定された文節が1つしかなければ、ステップ506に移行する。一方、認識しようとするショートメッセージに金額が「通信料金残額」と決定された文節が複数であれば、ステップ507に移行する。
ステップ506では、認識しようとするショートメッセージに「通信料金残額」と決定された文節中の金額を今回認識した数字情報として決定する。
ステップ507では、数字情報予測の種別が予め設定された目的種別である通信料金の金額であった文節が複数である場合、通信料金の金額種別の予測確率が最も高い文節中の金額を認識した数字情報とする。
このステップにおいて、認識したマーキング結果は予め設定されたマーキング結果である文節の数量が複数である、すなわち認識した通信料金の金額の文節の数量が複数である場合、認識確率が最も高い文節における予め設定されたキーワードを予め設定されたマーキング結果の情報とすることができる。
この例では、ユーザが受信した事業者ショートメッセージに対して、自動的にユーザの通信料金残額を認識できるとともに、分類モデルにより予測することができるから、種別予測の精度が高い。
尚、サーバ側で定期的にモデルの更新を行うことができる。例えば、サーバは定期的に一部新しいショートメッセージサンプルを収集し、そしてこれらの新しいショートメッセージサンプルから新しい既知種別の数字情報を含む文節サンプルを取得することができる。サーバは新しい文節サンプルに基づいて新たにモデルのトレーニングを行うことによって、新しい分類モデルを得た後、スマート端末がこの新しいモデルに基づいて数字情報を認識するように、更新した後の分類モデルをスマート端末へ送信することができる。
本発明の例では、ショートメッセージ中の数字情報について認識したあと、認識結果を様々な応用、例えば認識結果に基づくアプリケーション操作や処理に応用することができ、人々の生活に利便性を提供する。例えば、認識した数字情報の数値が数値閾値以下である場合に、この数字情報に基づいてユーザに数字情報をアラートする。当該アラートは、通信料金残額が低すぎた場合にユーザに通信料金のチャージをアラートする、またはトラフィック余剰が少なすぎた場合にユーザにトラフィックのチャージをアラートする。
以下、通信料金残額のアラートを例として、2つの数字情報をアラートする例を挙げる。
一例として、通信料金残額の閾値を15元として設定すると、上記の例の認識方法によってユーザの通信料金残額が閾値未満で10元であったと決定された場合に、ショートメッセージ中に数字情報調整操作用エクスプレスインターフェースを表示させ、ユーザがこのエクスプレスインターフェースを利用して数字情報を調整する用に供する。ここの数字情報調整はユーザによる通信料金のチャージで、通信料金残額を増加させることであっても良く、ユーザはエクスプレスインターフェースを介して通信料金のチャージページに迅速にアクセルすることができる。
図6はこのエクスプレスインターフェースの表示形態を示す。図6に示すように、スマートフォンで受信した1つの事業者ショートメッセージには本発明の認識方法により認識された通信料金の金額が含まれ、且つ通信料金の金額が設定閾値の15元未満で10元以下であった場合に、このショートメッセージの末端に「通信料金チャージ」と設定されたエクスプレスインターフェース61が表示される。勿論、他の名称、例えば「エクスプレスチャージ」や「すぐチャージ」などであってもよい。
ユーザがこのエクスプレスインターフェース61をクリックすると、通信料金チャージのページへ移行でき、例えばチャージウェブサイトにアクセスして通信料金をチャージできる。このようなエクスプレスインターフェースの表示形態では、ユーザがショートメッセージを読んだ時にショートメッセージ中のインターフェースをクリックするだけでチャージページへ移行でき、従来のショートメッセージを閉じてからチャージページを検索する形態と比べて、チャージ操作の効率を顕著に向上させることができる。
もう1つの例では、ユーザの通信料金残額が閾値10元未満であったと認識した場合に、スマートフォンから認識しようとするショートメッセージの送信元に対して数字情報が変更した後の更新値を検索することができる。例えば、中国移動からユーザへ残額提示ショートメッセージを送信した後でも、ユーザはフォンを使用し続け、フォンにおける残額がますます少なくなる。この例では、スマートフォンから自主的に残額の変化状況、例えば毎日の残額余剰(9元、7元、6元など)を検索することができる。ただし、このような検索はユーザが感じられないバックグランド検索方式に設置できる。
検索して得られた更新値に基づいて数字情報が臨界警報値以下であったと確定された場合に、例えば、ユーザのフォンの通信料金残額が2元しか残っておらず、サービス停止直前の状態であれば、スマートフォンは数字情報の警報通知情報を表示して、例えばユーザに即時チャージをアラートする警報通知をポップアップ表示する。このような例は主に通信料金残額のアラートショートメッセージを受信してもチャージ忘れによるサービス停止で使用できなくなるユーザがいるのためである。この手段によって、スマートフォンはバックグランドでユーザの残額の変化を監視でき、臨界警報値が出た場合にサービス停止にならないように即時ユーザにぐチャージをアラートする。
図7は例示的な実施例によるテンプレート構築装置の構造図であり、この装置は本発明のテンプレート構築方法を実現することに用い、例えばサーバに適用され、図7に示すように、この装置はサンプル取得モジュール71と、サンプル処理モジュール72と、分割処理モジュール73と、特徴抽出モジュール74と、テンプレート構築モジュール75とテンプレートトレーニングモジュール76と、を備える。
サンプル取得モジュール71は、種別が予め設定された少なくとも1つのオリジナル情報を含むオリジナル情報サンプル集合を取得する。
サンプル処理モジュール72は、上記オリジナル情報に予め設定されたキーワードが含まれている時に、予め設定されたキーワード集合に基づいて上記予め設定されたキーワードをマーキングすることによって、サンプルトレーニング集合を得る。
分割処理モジュール73は、上記サンプルトレーニング集合における上記予め設定されたキーワードを含む文節に対して分割を行うことによって、複数の単語を得る。
特徴抽出モジュール74は、上記複数の単語から少なくとも1つの特徴語を含む特定特徴集合を抽出する。
特徴抽出モジュール74は、上記複数の単語から少なくとも1つの特徴語を含む特定特徴集合を抽出する。
テンプレート構築モジュール75は、上記予め設定されたキーワードと上記特定特徴集合中の上記特徴語に基づいて上記テンプレートを構築する。
テンプレートトレーニングモジュール76は、上記サンプルトレーニング集合中のマーキング結果に従って上記テンプレートに対するトレーニングを行う。
さらに、特徴抽出モジュール74は、カイ二乗検定によって上記複数の単語から上記特定特徴集合を抽出するステップ、または、情報ゲインによって上記複数の単語から特定特徴集合を抽出するステップによって、複数の単語から特定特徴集合を抽出する。
さらに、上記テンプレート構築モジュール75は、上記特定特徴集合中の上記特徴語と上記予め設定されたキーワードとにより単純ベイズ分類器を構築し、各特徴語は上記単純ベイズ分類器において互いに独立している。
さらに、テンプレートトレーニングモジュール76は、上記単純ベイズ分類器中の上記特徴語ごとに、上記サンプルトレーニング集合中のマーキング結果に基づいて、上記特徴語と上記予め設定されたキーワードとを有する文節である第1の文節の数量を統計するとともに、それぞれの上記特徴語、上記予め設定されたキーワードおよび上記数量に基づいて、トレーニングした後の上記単純ベイズ分類器を得る。
さらに、上記予め設定されたキーワードは数字情報であり、上記マーキング結果は上記数字情報の属性である。
図8は例示的な実施例による情報認識装置の構造図であり、この装置は本発明の情報認識方法を実現するためのものである。例えばスマート端末に適用される。図8に示すように、この装置は文節取得モジュール81と、単語抽出モジュール82と、認識処理モジュール83と、を備える。
文節取得モジュール81は、認識しようとする目的情報における予め設定されたキーワードを含む文節を少なくとも1つ取得する。
単語抽出モジュール82は、上記文節に対して分割を行い複数の単語を得て、上記複数の単語から少なくとも1つの特徴語を含む特定特徴集合を抽出する。
認識処理モジュール83は、上記予め設定されたキーワード、特徴語及び予め構築されたテンプレートに基づいて、上記文節における予め設定されたキーワードのマーキング結果を認識する。
さらに、認識処理モジュール83は、認識のマーキング結果として予め設定されたマーキング結果である文節の数量は複数である場合、認識確率が最も高い文節における予め設定されたキーワードを予め設定されたマーキング結果の情報とする。
さらに、単語抽出モジュール82は、カイ二乗検定によって上記複数の単語から上記特定特徴集合を抽出するステップ、または情報ゲインによって上記複数の単語から上記特定特徴集合を抽出するステップによって、複数の単語から特定特徴集合を抽出する。
さらに、上記予め設定されたキーワードは数字情報であり、上記マーキング結果は上記数字情報の属性である。
図9は例示的な実施例による情報認識装置900のブロック図である。例えば、装置900は携帯電話、コンピュータ、数字放送端末、メッセージ送受信機器、ゲーム機器、タブレット機器、医療機器、フィットネス機器、PDAなどであればよい。
図9を参照して、装置900は処理部902、メモリ904、電源部906、マルチメディア部908、音声部910、入力/出力(I/O)インターフェース912、センサー部914、及び通信部916からなる群で選ばれた1つまたは複数の部品で構成される。
一般的に処理部902は装置900の全体操作、例えば表示、発呼、データ通信、カメラ操作と記録操作に対応する操作を制御する。処理部902は本発明の情報認識方法を行うために1つ又は複数のプロセッサー920を備えてコマンドを実行しても良い。さらに、処理部902は処理部902とその他の部品との間の対話のために1つ又は複数のモジュールを備えても良い。例えば、処理部件902マルチメディア部908と処理部902との間の対話のためにマルチメディアモジュールを備えても良い。
メモリ904は様々なデータを記憶して機器900での操作に対応するように配置される。これらのデータは例えば装置900で操作されるいずれかのアプリケーションプログラムや方法のコマンド、連絡者データ、電話帳データ、メッセージ、画像、ビデオなどが挙げられる。メモリ904は任意の発揮性や非発揮性記憶機器またはそれらの組み合わせによって実現され、例えばStatic Random Access Memory(SRAM)、Electrically Erasable and Programmable Read Only Memory(EEPROM)、Erasable and Programmable Read Only Memory(EPROM)、Programmable Read Only Memory(PROM)、Read Only Memory(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクが挙げられる。
電力部906は装置900の各種部品に電力を供給する。電力部906は電源管理システム、1つ又は複数の電源、および装置900に対する電力を生成・管理・割当するためのその他の部品を含む。
マルチメディア部908は上記装置900とユーザ間の出力インターフェースを提供するスクリーンを含む。ある実施例には、スクリーンは液晶ディスプレイ(LCD)とタッチパネル(TP)を含んでも良い。スクリーンがタッチパネルを含むと、スクリーンがタッチスクリーンとして実現され、ユーザからの入力信号を受信する。タッチパネルはタッチパネルに対するタッチ、スライドやジェスチャーを検知するための1つ又は複数のタッチセンサーを含む。上記タッチセンサーはタッチやスライド動作の境界を検知するとともに、上記タッチやスライド操作に関する継続時間と圧力を検出することができる。ある実施例には、マルチメディア部908は1つのフロントカメラ及び/又はリアカメラを含む。機器900が操作モード、例えば撮像モードまたはビデオモードにした時に、フロントカメラ及び/又はリアカメラで外部からのマルチメディアデータを受信することができる。それぞれのフロントカメラとリアカメラは一体の光学レンズシステムや焦点距離可変及び光学ズーム機能を有するものである。
音声部910は音声信号を出力及び/又は入力するように配置される。例えば、音声部910は1つのマイク(MIC)を含み、装置900が操作モード、例えば発呼モード、記録モードや音声認識モードにした時に、マイクは外部の音声信号を受信するように配置される。ひいては受信した音声信号をメモリ904に記憶させ、または通信部916を介して送信させる。ある実施例には、音声部910は音声信号を出力するための1つのスピーカをさらに含む。
I/Oインターフェース912は処理部902とキーボード、クリックホイール、ボタンなどの周辺インターフェースモジュールとの間のインターフェースを提供する。これらのボタンはホームページボタン、ボリュームボタン、スタートボタンやロックボタンを含むが、それらに限定されるものではない。
センサー部914は装置900の各側面の状態を評価する1つ又は複数のセンサーを含む。例えば、センサー部914は装置900のオン/オフ状態、部品の相対的機能、例えば上記部品が装置900のディスプレイ及びキーパッドとして機能することを検出できるとともに、センサー部914は装置900または装置900のある部品の位置変化、装置900に対するユーザの接触があるかどうか、装置900の方位や加速/減速及び装置900の温度変化を検出することができる。センサー部914は何も触れていない時に周辺物体の存在を検出するように配置される近接センサーを含む。センサー部914は光センサー、例えば画像形成に用いるCMOSまたはCCDイメージセンサーを含む。ある実施例には、このセンサー部914は加速度センサー、ジャイロセンサー、磁気センサー、圧力センサーや温度センサーを含んでも良い。
通信部916は装置900とその他の機器間の有線や無線方式の通信を行うように配置される。装置900は通信規格に基づく無線ネットワーク、例えばWiFi、2Gや3G、またはそれらの組み合わせに接続することができる。例示的な実施例には、通信部916は放送チャンネルを介して外部の放送管理システムからの放送信号または放送に関する情報を受信する。例示的な実施例には、上記通信部916は短距離通信を促進するための近接通信(NFC)モジュールを含む。例えば、NFCモジュールでは無線IDタグ(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(BT)技術とその他の技術に基づいて通信が実現される。
例示的な実施例には、装置900は上記方法を実行するために1つ又は複数の専用集積回路(ASIC)、数字信号プロセッサー(DSP)、数字信号処理機器(DSPD)、プログラマブル論理デバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサーまたはその他の電子素子で実現される。
例示的な実施例には、装置のプロセッサーで実行され上記方法が実現されるコマンドを含む非一時的なコンピュータ可読記憶媒体、例えばコマンドを含むメモリがされに提供される。例えば、上記非一時的なコンピュータ可読記憶媒体はROM、ランダムアクセスメモリ(RAM)、CD−ROM、磁気テープ、フレキシブルディスクや光データ記憶機器などである。
図10は一例示的な実施例によるテンプレート構築装置1000のブロック図である。例えば、装置1000はサーバなどとして提供される。図10を参照して、装置1000は処理部1022、さらに1つ又は複数のプロセッサー、及び処理部件1022が実行可能なコマンド、例えばアプリケーションプログラムを記憶するためのメモリ1032で代表されるメモリリソースを含む。メモリ1032に記憶されるアプリケーションプログラムはコマンド集合ごとに対応する1つのまたは1つ以上のモジュールを含む。さらに、処理部1022はコマンドを実行して本発明のテンプレート構築方法を実行するように配置される。
装置1000は装置1000の電源管理を行うように配置される電源部1026、装置1000をネットワークに接続させるように配置される有線または無線ネットワークインターフェース1050、入出力(I/O)インターフェース1058をさらに含む。装置1000はメモリ1032に記憶されるオペレーティングシステム、例えばWindows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTMまたは類似システムに基づいて動作することができる。
当業者が明細書及び今回開示された発明を参照して本発明の他の実施形態を容易に想到できる。本願は本発明の任意変形、利用または適切な変化を含むことを意図して、これらの変形、利用または適切な変化が本発明の一般的原理に従い本発明に係る技術分野における公知な常識や慣用技術手段を含む。明細書と実施例は例示的なもので、本発明の範囲と精神は特許請求の範囲で示される。
本発明は以上の説明や図面に示された構造に限定されるもではなく、その範囲を逸脱しない限り様々な変更、変形が可能であることは勿論である。本発明の範囲は特許請求の範囲で解釈される。
Claims (20)
- テンプレートの構築方法であって、
種別が予め設定された少なくとも1つのオリジナル情報を含むオリジナル情報サンプル集合を取得するステップと、
前記オリジナル情報に予め設定されたキーワードが含まれている時に、予め設定されたキーワード集合に基づいて前記予め設定されたキーワードをマーキングすることによって、サンプルトレーニング集合を得るステップと、
前記サンプルトレーニング集合における前記予め設定されたキーワードを含む文節に対して分割を行うことによって、複数の単語を得るステップと、
前記複数の単語から少なくとも1つの特徴語を含む特定特徴集合を抽出するステップと、
前記予め設定されたキーワードと前記特定特徴集合中の前記特徴語に基づいて前記テンプレートを構築するステップと、
前記サンプルトレーニング集合中のマーキング結果に従って前記テンプレートに対してトレーニングを行うステップと、を含むことを特徴とするテンプレート構築方法。 - 前記複数の単語から特定特徴集合を抽出するステップは、
カイ二乗検定によって前記複数の単語から前記特定特徴集合を抽出するステップ、または、
情報ゲインによって前記複数の単語から前記特定特徴集合を抽出するステップを含むことを特徴とする請求項1に記載の方法。 - 前記予め設定されたキーワードと前記特定特徴集合中の前記特徴語に基づいて前記テンプレートを構築するステップは、
前記特定特徴集合中の前記特徴語と前記予め設定されたキーワードとにより単純ベイズ分類器を構築し、各特徴語は前記単純ベイズ分類器において互いに独立しているステップを含むことを特徴とする請求項1に記載の方法。 - 前記サンプルトレーニング集合中のマーキング結果に従って前記テンプレートに対するトレーニングを行うステップは、
前記単純ベイズ分類器中の前記特徴語ごとに、前記サンプルトレーニング集合中のマーキング結果に基づいて、前記特徴語と前記予め設定されたキーワードとを有する文節である第1の文節の数量を統計するステップと、
それぞれの前記特徴語、前記予め設定されたキーワードおよび前記数量に基づいて、トレーニングした後の前記単純ベイズ分類器を得るステップと、を含むことを特徴とする請求項3に記載の方法。 - 前記オリジナル情報に予め設定されたキーワードが含まれている時に、予め設定されたキーワード集合に基づいて前記予め設定されたキーワードをマーキングすることによって、サンプルトレーニング集合を得るステップは、
前記オリジナル情報に数字情報が含まれている時に、前記数字情報の属性を示す情報を含む予め設定されたキーワード集合に基づいて前記数字情報に対してマーキングを行い、サンプルトレーニング集合を得るステップを含むことを特徴とする請求項4に記載の方法。 - 認識しようとする目的情報における予め設定されたキーワードを含む文節を少なくとも1つ取得するステップと、
前記文節に対して分割を行い複数の単語を得て、前記複数の単語から少なくとも1つの特徴語を含む特定特徴集合を抽出するステップと、
前記予め設定されたキーワード、特徴語及び予め構築されたテンプレートに基づいて、前記文節における予め設定されたキーワードのマーキング結果を認識するステップと、を含むことを特徴とする情報認識方法。 - 認識したマーキング結果として予め設定されたマーキング結果である文節の数量が複数である場合、認識確率が最も高い文節における予め設定されたキーワードを予め設定されたマーキング結果の情報とするステップをさらに含むことを特徴とする請求項6に記載の方法。
- 前記複数の単語から特定特徴集合を抽出するステップは、
カイ二乗検定によって前記複数の単語から前記特定特徴集合を抽出するステップ、または、
情報ゲインによって前記複数の単語から前記特定特徴集合を抽出するステップを含むことを特徴とする請求項6に記載の方法。 - 前記予め設定されたキーワードは数字情報であり、前記マーキング結果は前記数字情報の属性であることを特徴とする請求項6に記載の方法。
- 種別が予め設定された少なくとも1つのオリジナル情報を含むオリジナル情報サンプル集合を取得するためのサンプル取得モジュールと、
前記オリジナル情報に予め設定されたキーワードが含まれている時に、予め設定されたキーワード集合に基づいて前記予め設定されたキーワードをマーキングすることによって、サンプルトレーニング集合を得るためのサンプル処理モジュールと、
前記サンプルトレーニング集合における前記予め設定されたキーワードを含む文節に対して分割を行うことによって、複数の単語を得るための分割処理モジュールと、
前記複数の単語から少なくとも1つの特徴語を含む特定特徴集合を抽出するための特徴抽出モジュールと、
前記予め設定されたキーワードと上記特定特徴集合中の上記特徴語に基づいて上記テンプレートを構築するためのテンプレート構築モジュールと、
上記サンプルトレーニング集合中のマーキング結果に従って上記テンプレートに対するトレーニングを行うためのテンプレートトレーニングモジュールと、を備えることを特徴とするテンプレート構築装置。 - 前記特徴抽出モジュールは、カイ二乗検定によって前記複数の単語から前記特定特徴集合を抽出するステップ、または情報ゲインによって前記複数の単語から特定特徴集合を抽出するステップによって、複数の単語から特定特徴集合を抽出することを特徴とする請求項10に記載の装置。
- 前記テンプレート構築モジュールは、前記特定特徴集合中の前記特徴語と前記予め設定されたキーワードとにより単純ベイズ分類器を構築し、各特徴語は前記単純ベイズ分類器において互いに独立していることを特徴とする請求項10に記載の装置。
- 前記テンプレートトレーニングモジュールは、前記単純ベイズ分類器中の前記特徴語ごとに、前記サンプルトレーニング集合中のマーキング結果に基づいて、前記特徴語と前記予め設定されたキーワードを有する文節である第1の文節の数量を統計するとともに、それぞれの前記特徴語、前記予め設定されたキーワードおよび前記数量に基づいて、トレーニングした後の前記単純ベイズ分類器を得ることを特徴とする請求項12に記載の装置。
- 前記予め設定されたキーワードは数字情報であり、前記マーキング結果は前記数字情報の属性であることを特徴とする請求項13に記載の装置。
- 認識しようとする目的情報における予め設定されたキーワードを含む文節を少なくとも1つ取得するための文節取得モジュールと、
前記文節に対して分割を行い複数の単語を得て、前記複数の単語から少なくとも1つの特徴語を含む特定特徴集合を抽出するための単語抽出モジュールと、
前記予め設定されたキーワード、特徴語及び予め構築されたテンプレートに基づいて、前記文節における予め設定されたキーワードのマーキング結果を認識するための認識処理モジュールと、を備えることを特徴とする情報認識装置。 - 前記認識処理モジュールは、認識のマーキング結果として予め設定されたマーキング結果である文節の数量が複数である場合、認識確率が最も高い文節における予め設定されたキーワードを予め設定されたマーキング結果の情報とすることを特徴とする請求項15に記載の装置。
- 前記単語抽出モジュールは、カイ二乗検定によって前記複数の単語から前記特定特徴集合を抽出するステップ、または情報ゲインによって前記複数の単語から前記特定特徴集合を抽出するステップによって、複数の単語から特定特徴集合を抽出することを特徴とする請求項15に記載の装置。
- 前記予め設定されたキーワードは数字情報であり、前記マーキング結果は前記数字情報の属性であることを特徴とする請求項15に記載の装置。
- プロセッサーと、
プロセッサーにより実行可能なコマンドを記憶するメモリと、
を備え、
前記プロセッサーは、種別が予め設定された少なくとも1つのオリジナル情報を含むオリジナル情報サンプル集合を取得し、前記オリジナル情報に予め設定されたキーワードが含まれている時に、予め設定されたキーワード集合に基づいて前記予め設定されたキーワードをマーキングすることによって、サンプルトレーニング集合を得て、前記サンプルトレーニング集合における前記予め設定されたキーワードを含む文節に対して分割を行うことによって、複数の単語を得て、前記複数の単語から少なくとも1つの特徴語を含む特定特徴集合を抽出し、前記予め設定されたキーワードと前記特定特徴集合中の前記特徴語に基づいて前記テンプレートを構築し、前記サンプルトレーニング集合中のマーキング結果に従って前記テンプレートに対するトレーニングを行うように配置されることを特徴とするテンプレート構築装置。 - プロセッサーと、
プロセッサーにより実行可能なコマンドを記憶するメモリと、
を備え、
前記プロセッサーは、認識しようとする目的情報における予め設定されたキーワードを含む文節を少なくとも1つ取得し、前記文節に対して分割を行い複数の単語を得て、前記複数の単語から少なくとも1つの特徴語を含む特定特徴集合を抽出し、前記予め設定されたキーワード、特徴語及び予め構築されたテンプレートに基づいて、前記文節における予め設定されたキーワードのマーキング結果を認識するように配置されることを特徴とする情報認識装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510827530.8 | 2015-11-24 | ||
CN201510827530.8A CN105488025B (zh) | 2015-11-24 | 2015-11-24 | 模板构建方法和装置、信息识别方法和装置 |
PCT/CN2015/099305 WO2017088246A1 (zh) | 2015-11-24 | 2015-12-29 | 模板构建方法和装置、信息识别方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018504728A true JP2018504728A (ja) | 2018-02-15 |
Family
ID=55675009
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017552212A Pending JP2018504728A (ja) | 2015-11-24 | 2015-12-29 | テンプレート構築方法及び装置、情報認識方法及び装置 |
Country Status (8)
Country | Link |
---|---|
US (1) | US10061762B2 (ja) |
EP (1) | EP3173940A1 (ja) |
JP (1) | JP2018504728A (ja) |
KR (1) | KR101782754B1 (ja) |
CN (1) | CN105488025B (ja) |
MX (1) | MX2016004667A (ja) |
RU (1) | RU2649294C2 (ja) |
WO (1) | WO2017088246A1 (ja) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111277579B (zh) * | 2016-05-06 | 2023-01-17 | 青岛海信移动通信技术股份有限公司 | 一种识别验证信息的方法和设备 |
CN107493370B (zh) * | 2016-06-12 | 2020-08-04 | 阿里巴巴集团控股有限公司 | 流量模板确定方法、流量信息识别方法及装置 |
CN107517463A (zh) * | 2016-06-15 | 2017-12-26 | 中国移动通信集团浙江有限公司 | 一种电话号码的识别方法和装置 |
CN107734131B (zh) * | 2016-08-11 | 2021-02-12 | 中兴通讯股份有限公司 | 一种短信息分类方法及装置 |
US11259352B2 (en) | 2016-09-26 | 2022-02-22 | The Trustees Of Columbia University In The City Of New York | Systems, methods, and media for providing multi-homing |
WO2018058145A1 (en) | 2016-09-26 | 2018-03-29 | Yudong Yang | Scheduling traffic of an application communication session between a wifi network and a device |
US10687341B2 (en) * | 2016-09-26 | 2020-06-16 | The Trustees Of Columbia University In The City Of New York | Systems, methods, and media for scheduling traffic of a communication session between an application on a WiFi network and another device |
CN108616413B (zh) * | 2016-12-13 | 2020-09-11 | 百度在线网络技术(北京)有限公司 | 信息校准方法和装置 |
KR101901965B1 (ko) * | 2017-01-12 | 2018-09-28 | 엘에스산전 주식회사 | 프로젝트 화면 작성장치 |
CN106899949B (zh) * | 2017-01-23 | 2019-11-08 | 北京思特奇信息技术股份有限公司 | 手机短信通知格式的调整配置方法及系统 |
CN107391363B (zh) * | 2017-06-30 | 2020-07-03 | 北京金山安全软件有限公司 | 一种测试资源的调度方法、装置及电子设备 |
CN107315739A (zh) * | 2017-07-12 | 2017-11-03 | 安徽博约信息科技股份有限公司 | 一种语义分析方法 |
CN107632975A (zh) * | 2017-08-09 | 2018-01-26 | 联动优势科技有限公司 | 一种词典建立方法及设备 |
CN109558887A (zh) * | 2017-09-27 | 2019-04-02 | 北京京东尚科信息技术有限公司 | 一种预测行为的方法和装置 |
CN108038108B (zh) * | 2017-12-27 | 2021-12-10 | 东软集团股份有限公司 | 分词模型训练方法和装置、及存储介质 |
CN110392155B (zh) * | 2018-04-16 | 2022-05-24 | 阿里巴巴集团控股有限公司 | 通知消息的显示、处理方法、装置及设备 |
CN109815488A (zh) * | 2018-12-26 | 2019-05-28 | 出门问问信息科技有限公司 | 自然语言理解训练数据生成方法、装置、设备及存储介质 |
WO2020145591A1 (ko) * | 2019-01-08 | 2020-07-16 | 주식회사 에치에프알 | 자연 언어 기반 블록 체인 스마트 계약 생성방법 및 그를 위한 장치 |
KR102142688B1 (ko) * | 2019-01-08 | 2020-08-07 | 주식회사 에치에프알 | 자연 언어 기반 블록 체인 스마트 계약 생성방법 및 그를 위한 장치 |
CN110147433B (zh) * | 2019-05-21 | 2021-01-29 | 北京鸿联九五信息产业有限公司 | 一种基于字典树的文本模板提取方法 |
CN110349424A (zh) * | 2019-06-28 | 2019-10-18 | 京东数字科技控股有限公司 | 一种基于车路协同的路侧系统 |
CN110889451B (zh) * | 2019-11-26 | 2023-07-07 | Oppo广东移动通信有限公司 | 事件审计方法、装置、终端设备以及存储介质 |
CN112667886A (zh) * | 2020-12-02 | 2021-04-16 | 浙江学海教育科技有限公司 | 不当评论检测方法、装置、设备及介质 |
CN115859964B (zh) * | 2022-11-24 | 2023-04-28 | 安徽冠成教育科技有限公司 | 基于教育云平台的教育资源共享方法及系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002092006A (ja) * | 2000-07-21 | 2002-03-29 | Ford Motor Co | テーマに基く文書分類システム |
JP2002519766A (ja) * | 1998-06-23 | 2002-07-02 | マイクロソフト コーポレイション | テキストの分類およびテキスト分類器を構築するための方法ならびに装置 |
JP2007207161A (ja) * | 2006-02-06 | 2007-08-16 | National Institute Of Information & Communication Technology | キーワード強調装置及びプログラム |
JP2010009307A (ja) * | 2008-06-26 | 2010-01-14 | Kyoto Univ | 特徴語自動学習システム、コンテンツ連動型広告配信コンピュータシステム、検索連動型広告配信コンピュータシステム、およびテキスト分類コンピュータシステム、並びにこれらのコンピュータプログラムおよび方法 |
JP2010056682A (ja) * | 2008-08-26 | 2010-03-11 | National Institute Of Information & Communication Technology | 電子メール受信装置及び電子メール受信方法、電子メール送信装置及び電子メール送信方法、メール送信サーバ |
JP2010117797A (ja) * | 2008-11-11 | 2010-05-27 | Hitachi Ltd | 数値表現処理装置 |
JP2010128774A (ja) * | 2008-11-27 | 2010-06-10 | Nippon Telegr & Teleph Corp <Ntt> | 固有表現抽出装置、その方法およびプログラム |
JP2010182165A (ja) * | 2009-02-06 | 2010-08-19 | Hitachi Ltd | 分析システム及び情報分析方法 |
WO2012148950A2 (en) * | 2011-04-29 | 2012-11-01 | Thomson Reuters Global Resources | Representing information from documents |
JP2013134625A (ja) * | 2011-12-26 | 2013-07-08 | Fujitsu Ltd | 抽出装置、抽出プログラム、および抽出方法 |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5991748A (en) * | 1996-12-06 | 1999-11-23 | American Express Travel Related Services Company, Inc. | Methods and apparatus for regenerating a prepaid transaction account |
SG93868A1 (en) * | 2000-06-07 | 2003-01-21 | Kent Ridge Digital Labs | Method and system for user-configurable clustering of information |
EP1404100A1 (en) * | 2002-09-30 | 2004-03-31 | Koninklijke KPN N.V. | Billing of differentiated services |
KR100487718B1 (ko) | 2002-12-20 | 2005-05-03 | 한국전자통신연구원 | 영역 외 코퍼스를 이용한 영역 종속적 훈련 코퍼스 보강시스템 및 그 방법 |
US7412385B2 (en) * | 2003-11-12 | 2008-08-12 | Microsoft Corporation | System for identifying paraphrases using machine translation |
US7003280B2 (en) * | 2003-11-20 | 2006-02-21 | Lucent Technologies Inc. | Method and system for processing adjustments to the type and quality of multimedia communication sessions |
US8000455B1 (en) * | 2004-12-09 | 2011-08-16 | Callwave, Inc. | Methods and systems for call processing |
US7457808B2 (en) * | 2004-12-17 | 2008-11-25 | Xerox Corporation | Method and apparatus for explaining categorization decisions |
JP2006301972A (ja) | 2005-04-20 | 2006-11-02 | Mihatenu Yume:Kk | 電子秘書装置 |
US8073472B1 (en) * | 2005-08-26 | 2011-12-06 | Openwave Systems Inc. | System and method for providing prepaid billing for instant messaging users |
US7756535B1 (en) * | 2006-07-07 | 2010-07-13 | Trend Micro Incorporated | Lightweight content filtering system for mobile phones |
US9318108B2 (en) * | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
CN101154379B (zh) * | 2006-09-27 | 2011-11-23 | 夏普株式会社 | 定位语音中的关键词的方法和设备以及语音识别系统 |
US7818176B2 (en) | 2007-02-06 | 2010-10-19 | Voicebox Technologies, Inc. | System and method for selecting and presenting advertisements based on natural language processing of voice-based input |
US8023974B1 (en) * | 2007-02-15 | 2011-09-20 | Trend Micro Incorporated | Lightweight SVM-based content filtering system for mobile phones |
US20090125529A1 (en) * | 2007-11-12 | 2009-05-14 | Vydiswaran V G Vinod | Extracting information based on document structure and characteristics of attributes |
US8346534B2 (en) * | 2008-11-06 | 2013-01-01 | University of North Texas System | Method, system and apparatus for automatic keyword extraction |
US8291319B2 (en) * | 2009-08-28 | 2012-10-16 | International Business Machines Corporation | Intelligent self-enabled solution discovery |
US8589231B2 (en) * | 2010-01-28 | 2013-11-19 | Yahoo! Inc. | Sensitivity categorization of web pages |
CN102404462B (zh) * | 2010-09-08 | 2015-05-20 | 北京商路通信息技术有限公司 | 一种用于电话外拨系统的呼叫进程分析方法和设备 |
CN102024045B (zh) * | 2010-12-14 | 2012-02-22 | 成都市华为赛门铁克科技有限公司 | 信息分类处理方法、装置和终端 |
CA2747153A1 (en) * | 2011-07-19 | 2013-01-19 | Suleman Kaheer | Natural language processing dialog system for obtaining goods, services or information |
CN102984783B (zh) * | 2011-09-02 | 2015-03-25 | 阿尔卡特朗讯公司 | 一种用于控制终端访问无线网络的方法和装置 |
US8655393B2 (en) * | 2011-11-02 | 2014-02-18 | Idt Corporation | System and method for communicating using two-way SMS |
WO2013155619A1 (en) * | 2012-04-20 | 2013-10-24 | Sam Pasupalak | Conversational agent |
WO2014047727A1 (en) * | 2012-09-28 | 2014-04-03 | Alkis Papadopoullos | A method and system for monitoring social media and analyzing text to automate classification of user posts using a facet based relevance assessment model |
CN104217717B (zh) * | 2013-05-29 | 2016-11-23 | 腾讯科技(深圳)有限公司 | 构建语言模型的方法及装置 |
CN109286724B (zh) | 2013-12-11 | 2021-02-26 | 创新先进技术有限公司 | 一种基于短信息的数据交互方法及装置 |
CN103914530B (zh) * | 2014-03-31 | 2017-02-15 | 北京中科模识科技有限公司 | 广播电视节目中违规广告的监测方法和系统 |
CN104346326A (zh) * | 2014-10-23 | 2015-02-11 | 苏州大学 | 一种情绪文本的情绪特征确定方法及装置 |
CN105447750B (zh) * | 2015-11-17 | 2022-06-03 | 小米科技有限责任公司 | 信息识别方法、装置、终端及服务器 |
-
2015
- 2015-11-24 CN CN201510827530.8A patent/CN105488025B/zh active Active
- 2015-12-29 KR KR1020167005592A patent/KR101782754B1/ko active IP Right Grant
- 2015-12-29 MX MX2016004667A patent/MX2016004667A/es unknown
- 2015-12-29 JP JP2017552212A patent/JP2018504728A/ja active Pending
- 2015-12-29 RU RU2016113791A patent/RU2649294C2/ru active
- 2015-12-29 WO PCT/CN2015/099305 patent/WO2017088246A1/zh active Application Filing
-
2016
- 2016-11-02 US US15/341,144 patent/US10061762B2/en active Active
- 2016-11-08 EP EP16197837.4A patent/EP3173940A1/en not_active Withdrawn
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002519766A (ja) * | 1998-06-23 | 2002-07-02 | マイクロソフト コーポレイション | テキストの分類およびテキスト分類器を構築するための方法ならびに装置 |
JP2002092006A (ja) * | 2000-07-21 | 2002-03-29 | Ford Motor Co | テーマに基く文書分類システム |
JP2007207161A (ja) * | 2006-02-06 | 2007-08-16 | National Institute Of Information & Communication Technology | キーワード強調装置及びプログラム |
JP2010009307A (ja) * | 2008-06-26 | 2010-01-14 | Kyoto Univ | 特徴語自動学習システム、コンテンツ連動型広告配信コンピュータシステム、検索連動型広告配信コンピュータシステム、およびテキスト分類コンピュータシステム、並びにこれらのコンピュータプログラムおよび方法 |
JP2010056682A (ja) * | 2008-08-26 | 2010-03-11 | National Institute Of Information & Communication Technology | 電子メール受信装置及び電子メール受信方法、電子メール送信装置及び電子メール送信方法、メール送信サーバ |
JP2010117797A (ja) * | 2008-11-11 | 2010-05-27 | Hitachi Ltd | 数値表現処理装置 |
JP2010128774A (ja) * | 2008-11-27 | 2010-06-10 | Nippon Telegr & Teleph Corp <Ntt> | 固有表現抽出装置、その方法およびプログラム |
JP2010182165A (ja) * | 2009-02-06 | 2010-08-19 | Hitachi Ltd | 分析システム及び情報分析方法 |
WO2012148950A2 (en) * | 2011-04-29 | 2012-11-01 | Thomson Reuters Global Resources | Representing information from documents |
JP2013134625A (ja) * | 2011-12-26 | 2013-07-08 | Fujitsu Ltd | 抽出装置、抽出プログラム、および抽出方法 |
Non-Patent Citations (1)
Title |
---|
藤畑 勝之,外: "係り受けの制約と優先規則に基づく数量表現抽出", 情報処理学会研究報告, vol. 2001, no. 86, JPN6009047988, 11 September 2001 (2001-09-11), JP, pages 119 - 125, ISSN: 0003748179 * |
Also Published As
Publication number | Publication date |
---|---|
KR101782754B1 (ko) | 2017-09-27 |
RU2649294C2 (ru) | 2018-03-30 |
KR20170073542A (ko) | 2017-06-28 |
EP3173940A1 (en) | 2017-05-31 |
US10061762B2 (en) | 2018-08-28 |
MX2016004667A (es) | 2017-08-09 |
WO2017088246A1 (zh) | 2017-06-01 |
RU2016113791A (ru) | 2017-10-19 |
CN105488025B (zh) | 2019-02-12 |
US20170147553A1 (en) | 2017-05-25 |
CN105488025A (zh) | 2016-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2018504728A (ja) | テンプレート構築方法及び装置、情報認識方法及び装置 | |
US10990623B2 (en) | Information retrieval method, eletronic device and storage medium | |
US20170052947A1 (en) | Methods and devices for training a classifier and recognizing a type of information | |
CN104506715B (zh) | 通知消息显示方法及装置 | |
CN105447750B (zh) | 信息识别方法、装置、终端及服务器 | |
US20180121040A1 (en) | Method and device for managing notification messages | |
EP3002911B1 (en) | Communication message recognition method and device thereof | |
KR101771153B1 (ko) | 연관 사용자의 확정 방법 및 장치 | |
CN105528403B (zh) | 目标数据识别方法及装置 | |
CN104268129B (zh) | 消息回复的方法及装置 | |
CN105469104B (zh) | 文本信息相似度的计算方法、装置及服务器 | |
CN105354284B (zh) | 模板的处理方法及装置、短信识别方法及装置 | |
CN109002184A (zh) | 一种输入法候选词的联想方法和装置 | |
CN111046927B (zh) | 标注数据的处理方法、装置、电子设备及存储介质 | |
CN109308240B (zh) | 操作处理方法及装置、存储介质 | |
CN104951445B (zh) | 一种网页处理方法及装置 | |
CN109145151B (zh) | 一种视频的情感分类获取方法及装置 | |
CN108491535B (zh) | 信息的分类存储方法及装置 | |
CN112862349B (zh) | 基于abs业务数据的数据处理方法、装置和设备 | |
CN114090738A (zh) | 场景数据信息确定的方法、装置、设备及存储介质 | |
CN108108356A (zh) | 一种文字翻译方法、装置及设备 | |
CN110069577B (zh) | 一种线路规划方法、装置及电子设备 | |
CN105224522A (zh) | 地理位置信息识别方法及装置 | |
CN109492072A (zh) | 信息查看方法、装置及设备 | |
US20160094713A1 (en) | Communication message recognition method and device thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180306 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20180724 |