CN105488025B - 模板构建方法和装置、信息识别方法和装置 - Google Patents

模板构建方法和装置、信息识别方法和装置 Download PDF

Info

Publication number
CN105488025B
CN105488025B CN201510827530.8A CN201510827530A CN105488025B CN 105488025 B CN105488025 B CN 105488025B CN 201510827530 A CN201510827530 A CN 201510827530A CN 105488025 B CN105488025 B CN 105488025B
Authority
CN
China
Prior art keywords
predetermined keyword
words
information
specific characteristic
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510827530.8A
Other languages
English (en)
Other versions
CN105488025A (zh
Inventor
汪平仄
张涛
陈志军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiaomi Inc
Original Assignee
Xiaomi Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to CN201510827530.8A priority Critical patent/CN105488025B/zh
Application filed by Xiaomi Inc filed Critical Xiaomi Inc
Priority to MX2016004667A priority patent/MX2016004667A/es
Priority to RU2016113791A priority patent/RU2649294C2/ru
Priority to PCT/CN2015/099305 priority patent/WO2017088246A1/zh
Priority to KR1020167005592A priority patent/KR101782754B1/ko
Priority to JP2017552212A priority patent/JP2018504728A/ja
Publication of CN105488025A publication Critical patent/CN105488025A/zh
Priority to US15/341,144 priority patent/US10061762B2/en
Priority to EP16197837.4A priority patent/EP3173940A1/en
Application granted granted Critical
Publication of CN105488025B publication Critical patent/CN105488025B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/12Messaging; Mailboxes; Announcements
    • H04W4/14Short messaging services, e.g. short message services [SMS] or unstructured supplementary service data [USSD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Development Economics (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)

Abstract

本公开提供一种模板构建方法和装置、信息识别方法和装置,其中方法包括:获取原始信息样本集,所述原始信息样本集包括至少一条预设类别的原始信息;在所述原始信息中包括预设关键词时,根据预设关键词集合对所述预设关键词进行标注,得到样本训练集;对所述样本训练集中的包括所述预设关键词的分句进行分词,得到若干个词语;从所述若干个词语中提取出指定特征集合,所述指定特征集合包括至少一个特征词;根据所述预设关键词和所述指定特征集合中的所述特征词构建所述模板;根据所述样本训练集中的标注结果对所述模板进行训练。本公开提高了信息识别的准确度。

Description

模板构建方法和装置、信息识别方法和装置
技术领域
本公开涉及数据处理技术,特别涉及一种模板构建方法和装置、信息识别方法和装置。
背景技术
日常生活中,用户可能会接收到各种各样的运营商短信或其他类信息。以运营商短信为例,运营商发送的话费余额提醒短信、或者剩余流量通知短信,或者,银行发送的账户信息短信,或者信用卡还款短信。这些短信都是用于通知用户一些数字信息,比如,话费余额、账户余额、剩余流量等,以使得用户及时了解这些信息。
发明内容
本公开提供一种模板构建方法和装置、信息识别方法和装置,以提高信息识别的准确性。
根据本公开实施例的第一方面,提供一种模板构建方法,包括:
获取原始信息样本集,所述原始信息样本集包括至少一条预设类别的原始信息;
在所述原始信息中包括预设关键词时,根据预设关键词集合对所述预设关键词进行标注,得到样本训练集;
对所述样本训练集中的包括所述预设关键词的分句进行分词,得到若干个词语;
从所述若干个词语中提取出指定特征集合,所述指定特征集合包括至少一个特征词;
根据所述预设关键词和所述指定特征集合中的所述特征词构建所述模板;
根据所述样本训练集中的标注结果对所述模板进行训练。
在一个例子中,所述从所述若干个词语中提取出指定特征集合,包括以下两个步骤中的其中一个:根据卡方检验从所述若干个词语中提取出所述指定特征集合;或根据信息增益从所述若干个词语中提取出所述指定特征集合。
在一个例子中,根据所述预设关键词和所述指定特征集合中的所述特征词构建所述模板,包括:将所述指定特征集合中的所述特征词和预设关键词构建朴素贝叶斯分类器,各个特征词在所述朴素贝叶斯分类器中互相独立。
在一个例子中,所述根据所述样本训练集中的标注结果对所述模板进行训练,包括:对于所述朴素贝叶斯分类器中的每个所述特征词,根据所述样本训练集中的标注结果,统计出携带有所述特征词和所述预设关键词的分句为第一分句的数量;根据各个所述特征词、所述预设关键词和所述数量,得到训练后的所述朴素贝叶斯分类器。
在一个例子中,所述在所述原始信息中包括预设关键词时,根据预设关键词集合对所述预设关键词进行标注,得到样本训练集,包括:在所述原始信息中包括数字信息时,根据预设关键词集合对所述数字信息进行标注,得到样本训练集,其中,所述预设关键词集合包括指示数字信息的属性的信息。
根据本公开实施例的第二方面,提供一种信息识别方法,包括:
获取待识别的目标信息中的至少一个分句,所述分句中包括预设关键词;
对所述分句进行分词得到若干个词语,并从所述若干个词语中提取出指定特征集合,所述指定特征集合包括至少一个特征词;
根据所述预设关键词、特征词以及预先构建的模板,识别所述分句中的预设关键词的标注结果。
在一个例子中,所述方法还包括:若识别的标注结果是预设标注结果的分句的数量为多个,则将识别概率最大的分句中的预设关键词作为预设标注结果的信息。
在一个例子中,所述从所述若干个词语中提取出指定特征集合,包括以下两个步骤中的其中一个:根据卡方检验从所述若干个词语中提取出所述指定特征集合;或根据信息增益从所述若干个词语中提取出所述指定特征集合。
在一个例子中,所述预设关键词为数字信息,所述标注结果为所述数字信息的属性。
根据本公开实施例的第三方面,提供一种模板构建装置,包括:
样本获取模块,用于获取原始信息样本集,所述原始信息样本集包括至少一条预设类别的原始信息;
样本处理模块,用于在所述原始信息中包括预设关键词时,根据预设关键词集合对所述预设关键词进行标注,得到样本训练集;
分词处理模块,用于对所述样本训练集中的包括所述预设关键词的分句进行分词,得到若干个词语;
特征提取模块,用于从所述若干个词语中提取出指定特征集合,所述指定特征集合包括至少一个特征词;
模板构建模块,用于根据所述预设关键词和所述指定特征集合中的所述特征词构建所述模板;
模板训练模块,用于根据所述样本训练集中的标注结果对所述模板进行训练。
在一个例子中,所述特征提取模块,用于通过如下两个步骤中的其中一个从若干个词语中提取出指定特征集合:根据卡方检验从所述若干个词语中提取出所述指定特征集合;或者,根据信息增益从所述若干个词语中提取出指定特征集合。
在一个例子中,所述模板构建模块,用于将所述指定特征集合中的所述特征词和所述预设关键词构建朴素贝叶斯分类器,各个特征词在所述朴素贝叶斯分类器中互相独立。
在一个例子中,所述模板训练模块,用于对于所述朴素贝叶斯分类器中的每个所述特征词,根据所述样本训练集中的标注结果,统计出携带有所述特征词和所述预设关键词的分句为第一分句的数量;根据各个所述特征词、所述预设关键词和所述数量,得到训练后的所述朴素贝叶斯分类器。
在一个例子中,所述预设关键词为数字信息,所述标注结果为所述数字信息的属性。
根据本公开实施例的第四方面,提供一种信息识别装置,包括:
分句获取模块,用于获取待识别的目标信息中的至少一个分句,所述分句中包括预设关键词;
词语提取模块,用于对所述分句进行分词得到若干个词语,并从所述若干个词语中提取出指定特征集合,所述指定特征集合包括至少一个特征词;
识别处理模块,用于根据所述预设关键词、特征词以及预先构建的模板,识别所述分句中的预设关键词的标注结果。
在一个例子中,所述识别处理模块,用于若识别的标注结果是预设标注结果的分句的数量为多个,将识别概率最大的分句中的预设关键词作为预设标注结果的信息。
在一个例子中,所述词语提取模块,用于通过如下两个步骤中的其中一个从若干个词语中提取出指定特征集合:根据卡方检验从所述若干个词语中提取出所述指定特征集合;或者根据信息增益从所述若干个词语中提取出所述指定特征集合。
在一个例子中,所述预设关键词为数字信息,所述标注结果为所述数字信息的属性。
根据本公开实施例的第五方面,提供一种模板构建装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:获取原始信息样本集,所述原始信息样本集包括至少一条预设类别的原始信息;在所述原始信息中包括预设关键词时,根据预设关键词集合对所述预设关键词进行标注,得到样本训练集;对所述样本训练集中的包括所述预设关键词的分句进行分词,得到若干个词语;从所述若干个词语中提取出指定特征集合,所述指定特征集合包括至少一个特征词;根据所述预设关键词和所述指定特征集合中的所述特征词构建所述模板;根据所述样本训练集中的标注结果对所述模板进行训练。
根据本公开实施例的第六方面,提供一种信息识别装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:获取待识别的目标信息中的至少一个分句,所述分句中包括预设关键词;对所述分句进行分词得到若干个词语,并从所述若干个词语中提取出指定特征集合,所述指定特征集合包括至少一个特征词;根据所述预设关键词、特征词以及预先构建的模板,识别所述分句中的预设关键词的标注结果。
本公开的实施例提供的技术方案可以包括以下有益效果:通过根据包含预设关键词的样本进行训练,构建识别所用的模板,并根据该模板识别信息中的关键词标注结果,使得信息识别更加准确。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种模板构建方法的流程图;
图2是根据一示例性实施例示出的另一种模板构建方法的流程图;
图3是根据一示例性实施例示出的应用本公开的方法识别短信中数字信息的系统;
图4是根据一示例性实施例示出的又一种模板构建方法的流程图;
图5是根据一示例性实施例示出的又一种模板构建方法的流程图;
图6是根据一示例性实施例示出的一种快捷接口的显示方式;
图7是根据一示例性实施例示出的一种模板构建装置的结构图;
图8是根据一示例性实施例示出的一种信息识别装置的结构图;
图9是根据一示例性实施例示出的一种信息识别装置的框图;
图10是根据一示例性实施例示出的一种模板构建装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本公开提供了一种可以用构建的模板来识别信息类别的方式,例如,可以用模板来识别运营商短信中的数字信息的类别,也可以应用于其他信息的识别。图1是根据一示例性实施例示出的一种模板构建方法的流程,包括:
在步骤101中,获取原始信息样本集,所述原始信息样本集包括至少一条预设类别的原始信息。
例如,在识别运营商短信的例子中,原始信息可以是运营商短信,比如可以是智能手机在接收到短信后上报给用户构建模板的设备。预设类别的原始信息,可以是待构建的模板所要用于识别的信息类别,比如,如果要构建用于识别出运营商短信中的话费信息的模板,那么原始信息样本集中可以包括至少一条包含话费信息的短信,话费这个类别即为预设类别。
在步骤102中,在所述原始信息中包括预设关键词时,根据预设关键词集合对所述预设关键词进行标注,得到样本训练集。
例如,预设关键词可以是在识别原始信息的类别时,主要是识别该预设关键词的类别。比如,智能手机接收到一个用于通知话费余额的运营商短信,话费余额是12元,那么预设关键词可以是“12”,对该预设关键词标注是对该关键词的类别进行标注,比如“12”是话费余额而不是收入款。当将原始信息样本集中的原始信息的预设关键词进行标注后,原始信息样本集就可以称为样本训练集。
在步骤103中,对所述样本训练集中的包括所述预设关键词的分句进行分词,得到若干个词语。
例如,分词得到的词语中,也可以包括预设关键词。比如,仍以运营商短信为例,对于通知话费余额的运营商短信,分词后既包括预设关键词12,也可以包括其他词语,比如,“您”“的”等。
在步骤104中,从所述若干个词语中提取出指定特征集合,所述指定特征集合包括至少一个特征词。
例如,在步骤103中分词得到的词语,有些可能是对识别预设关键词的类别不起作用的词语,比如,“啊”、“好的”,可以将这些词筛选出来,使用剩余的词语来进行模版的构建。该指定特征集合中包括的特征词可以是筛选后的词语。
在步骤105中,根据所述预设关键词和所述指定特征集合中的所述特征词构建所述模板。
例如,构建模板的方法可以有多种,可以使用分类器,并根据上述步骤中得到的特征词和预设关键词进行模版的构建。
在步骤106中,根据所述样本训练集中的标注结果对所述模板进行训练。
经过训练,该模板可以是用于得到对于一个信息识别其类别的模型,比如,将一条信息或包含信息的内容输入该模板,就可以输出信息的类别,或者得到该信息分别属于各个已知类别的概率。
通过本实施例的模板构建方法,根据包含预设关键词的样本进行训练,构建识别所用的模板,使得可以使用该模板进行信息类别的识别,这种通过模板识别类别的方式,使得信息识别更加准确。
图2是根据一示例性实施例示出的一种信息识别方法的流程,该方法可以利用在图1中训练的模板识别信息的类别,可以包括:
在步骤201中,获取待识别的目标信息中的至少一个分句,所述分句中包括预设关键词。
例如,当目标信息是运营商短信时,可以获取该短信中的至少一个分句,比如“您好”可以是一个分句,“您的话费余额是12元”可以作为另一个分句。至少一个分句中包含预设关键词,比如话费余额的数字。
在步骤202中,对所述分句进行分词得到若干个词语,并从所述若干个词语中提取出指定特征集合,所述指定特征集合包括至少一个特征词。
在步骤203中,根据所述预设关键词、特征词以及预先构建的模板,识别所述分句中的预设关键词的标注结果。
例如,本步骤中可以根据训练得到的模板,识别信息的类别,具体可以是识别信息中的预设关键词的标注结果。比如,在运营商短信识别的例子中,可以通过模板识别到预设关键词的标注结果是话费余额。
通过本实施例的信息识别方法,可以根据预先构建的模板,进行信息类别的识别,这种通过模板识别类别的方式,使得信息识别更加准确。
如下以短信中的数字信息识别为例,来说明本公开的方法在运营商短信识别中的应用。首先列举几种识别短信中数字信息的例子:
示例性的,对于短信“您的话费余额已不足10元”,应用本方法可以识别出“话费余额——10元”这种信息,即,识别出某种类别的数字的值。
又例如,对于短信“您本月的流量剩余845MB”,应用本公开的方法可以识别出“流量剩余—845MB”类似信息。
再例如,对于短信“您的赠款余额是344元,请核实”,应用本公开的方法可以识别出“赠款余额——344元”类似信息。
用户接收到的运营商短信包括多种类型的短信,比如上述例子中提到的几种,并且有时一个短信中可能包括多种类别的数字信息,至于应用该方法要识别到何种类别的数字信息,可以预先设定,称为“预设类别”。
举例如下:假设本公开的数字信息识别方法就是要将“话费余额”这种类别确定为“预设类别”,那么,当用户接收到的短信是“您的赠款余额是344元,请核实”时,尽管该短信中也包含数字344,但是不属于预设类别,则该方法可以返回null,即结果为空,没有要找到的“话费余额”类别的数字信息。而当识别到短信“您的话费余额已不足10元”中的数字信息“10”的所属类别是“话费余额”时,才返回“10”作为要识别的数字。
图3示例了一种应用本公开的方法识别短信中数字信息的系统,如图3所示,例如,该系统中可以包括:智能终端11和服务器12。其中,智能终端11可以是用户的智能手机,能够用于接收运营商短信。服务器12与智能手机之间可以进行通信交互,传输信息。
在本公开的例子中,执行数字信息的识别时,需要使用到模板,在该例子中,可以将模板称为分类模型,该分类模型的作用即用于识别短信中的数字信息的类别。而该分类模型可以是在服务器12根据采集样本进行模型训练得到,并将训练得到的分类模型发送至智能终端11,由智能终端11应用该模型对短信中的数字信息进行识别。对于应用本公开的方法进行话费余额识别的例子,包括服务器侧的模型训练以及智能手机侧的利用模型进行数字信息识别的过程,如下将分别进行说明:
服务器侧的模型训练:
图4是根据一示例性实施例示出的模型训练的流程图,服务器可以根据图4所示的流程进行模型训练,仍以话费余额识别为例,可以包括如下步骤:
在步骤401中,获取多个包含已知类别的数字信息的分句样本。
本步骤可以获取用于进行模型训练的样本,例如,服务器可以收集运营商短信,该运营商短信即为原始信息。收集的方式可以是,多个终端(如,智能手机)在接收到运营商短信后主动上报至服务器,或者,服务器定期去终端获取短信。在识别话费余额的本例子中,收集的运营商短信可以包括至少一条是话费余额通知的短信。
在获取到短信后,可以将短信中包含金额的分句提取出来,金额识别可以使用正则表达式。正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。
包含金额的分句构成的集合,可以用于“T”标识。例如,该集合T中包括的分句可以有“您的话费余额为64.8元”、“您的协议款余额为924元”、“您的赠款余额为344元”等。
在步骤402中,可以对各个分句进行标注;
例如,本步骤中可以由对各个分句中的数字信息的类别进行识别,这些分句中的数字信息,比如64.8、924等,可以称为原始信息中包括的预设关键词。在本例子中,可以是人工对这些词的类别进行标注,在其他的应用场景中,也可以是根据预设的关键词集合由服务器自动对关键词进行标注,该关键词集合中可以包括预设关键词及其类别的信息。比如,预设关键词集合包括指示所述数字信息的属性的信息,根据该预设关键词集合对原始信息中的数字信息进行标注。
在本例子中,类别的名称可以自定义。例如,本例子中可以包括三种类别:“话费余额”、“其他余额”、“非余额”。示例性的,将上述步骤401中的分句进行数字信息类别标注,将64.8标注为“话费余额”,将924标注为“其他余额”,将344标注为“非余额”。标注后的分句的集合可以称为T_tag,该集合中的各个分句都包含数字信息,且类别是已知的。
标准后的原始信息样本集可以称为样本训练集,在样本训练集中,对原始信息中包括的预设关键词进行了标注,比如,将64.8标注为“话费余额”。
在步骤403中,对标注后的分句集合中的各个分句进行分词。
例如,本步骤对T_tag集合中的分句进行分词,得到若干个词语,比如可以得到如下词语:[您]、[的]、[话费]、[余额]、[64.8]、[元]、[协议款]、[为]等。其中可以包括预设关键词,比如[64.8]。分词得到的这些词可以称为“特征词”,特征词的集合标识为W。
在步骤404中,使用卡方检验或信息增益,对所述分词进行筛选,得到筛选后的特征集合。
例如,上述在步骤303中分词得到的各个特征词,有的词是对类别训练没有太大关系的词,这些词可以被去掉,以优化选择得到的特征词。本步骤中可以使用卡方检验或信息增益对特征词进行筛选。
其中,卡方检验使用特征与类别间的关联性来进行量化,关联性越强,特征得分越高,该特征越应该被保留。在信息增益中,重要性的衡量标准就是看特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。根据卡方检验或信息增益就可以量化得到特征词的重要程度,从而进行优化选择,可以将优化后的特征词集合标识为F。比如,在步骤403中的特征词,可以将[为]、[的]这些词去掉。本步骤其实是从分词得到的若干个词语中提取出指定特征集合,该集合中包括至少一个特征词,这些特征词即为筛选后保留的特征词。
在步骤405中,以数字信息类别为训练目标,根据筛选的特征集合,使用朴素贝叶斯分类器进行模型训练,得到预设分类模型。
例如,将分句中的金额的类别作为训练目标,使用在步骤404中筛选得到的特征词集合F,对T_tag进行训练,训练模型可以采用朴素贝叶斯分类器。朴素贝叶斯分类器的基本方法:在统计资料的基础上,依据某些特征,计算各个类别的概率,从而实现分类。朴素贝叶斯分类器在本公开例子中的这种样本量少和短文本训练的场景中,可以使得分类效果较好。在本例子中,可以计算特征词分别属于各个类别的概率。训练得到的模型可以用M表示。
本步骤中,是在根据预设关键词和指定特征集合构建模板并根据样本训练集中的标注结果训练模板。比如,样本训练集中的标注结果包括“将64.8标注为话费余额”,对样本中的数字都标注了类别,并且根据短信中提取的[话费]、[余额]等特征词,就可以构建朴素贝叶斯分类器这个模板,各个特征词在所述朴素贝叶斯分类器中互相独立,并对这个模板进行训练,训练后的朴素贝叶斯分类器就可以得到某个信息的类别。
例如,在对模板训练时,可以对朴素贝叶斯分类器中的每个特征词,根据样本训练集中的标注结果,统计出携带有所述特征词和所述预设关键词的分句为第一分句的数量。根据各个所述特征词、所述预设关键词和所述数量,得到训练后的所述朴素贝叶斯分类器。这种训练后的朴素贝叶斯分类器可以用于得到各个特征词分别属于各种类别的概率。
本实施例可以通过服务器训练分句样本得到分类模型,并将分类模型发送至智能终端以用于识别短信中的预设目标类别的数字信息,这种模型识别的方式可以使得对于数字信息识别的准确度较高。
服务器在训练得到模型M后,将该模型发送至智能手机,智能手机可以利用该模型进行识别短信中的数字信息。
智能手机侧的数字信息识别:
图5是根据一示例性实施例示出的模型识别的流程图,智能终端可以根据图5所示的流程利用模型识别数字信息,仍以话费余额识别为例,可以包括如下步骤:
在步骤501中,接收待识别的短信;
例如,在本步骤中,智能手机可以接收到一条运营商短信,该运营商短信即为待识别的目标信息。
在步骤502中,判断待识别短信中是否包含金额;
在本步骤中,如果判断结果为是,则继续执行503;否则,可以返回NULL。
在步骤503中,获取待识别短信中包含金额的至少一个分句。
例如,待识别的短信中可能包含多个分句,比如,“您的赠款余额为344元,请您核实,如有问题请与我们联系…….”这个短信中有很多分句,本步骤中可以选择包含数字信息的分句即可,在本例子中,数字信息即为金额。比如,“您的赠款余额为344元”是个包含数字信息“344”的分句,而“如有问题请与我们联系”这个分句中就不包含数字信息,可以不用选择。这些分句中都包括预设关键词,比如344等数字信息。
在步骤504中,对分句进行分词,根据特征集合F进行特征词提取。
例如,本步骤中可以根据在图4实施例中得到的特征集合F,将在步骤503中得到的分句中的属于F中的词提取出来,否则不提取。
在步骤505中,使用模型M和提取的特征词,预测分句的数字信息类别。
本步骤可以根据训练得到的模型以及提取到的特征词、预设关键词等,识别短信中的数字的标注结果,即识别数字的类别,比如本例子中可以识别短信中的数字是否是话费余额。例如,对于其中一条分句,可以根据该分句中的每个特征词分别属于各个类别的概率,得到该分句中的金额分别属于各个金额类别的概率(“话费余额”、“其他余额”或者“非余额”),那么,预测概率最大的类别就是该分句中的金额所属的类别。
如果待识别的短信中的至少一个分句,没有分句中的金额被确定为“话费余额”,则可以返回NULL,参见图5所示。如果待识别的短信中只有一个分句中的金额被确定为“话费余额”,则可以执行步骤506;如果待识别的短信中有多个分句中的金额被确定为“话费余额”,则可以执行507。
在步骤506中,可以将待识别的短信中被确定为“话费余额”的分句中的金额,确定为本次识别到的数字信息。
在步骤507中,若数字信息预测的类别是预设目标类别即话费金额的分句的数量为多个,则将对于话费金额类别的预测概率最大的分句中的金额作为识别得到的数字信息。
在本步骤中,识别的标注结果是预设标注结果的分句的数量为多个,即识别到的话费金额的分句的数量为多个,则将识别概率最大的分句中的预设关键词作为预设标注结果的信息。
本例子中,可以对用户接收到的运营商短信,自动识别用户的话费余额,并且通过使用分类模型进行预测,类别预测的准确度较高。
此外,需要说明的是,在服务器侧可以定期进行模型的更新。例如,服务器可以定期采集一些新的短信样本,进而从该新短信样本中获取到新分句样本,该新分句样本中包含已知类别的数字信息。服务器可以根据新分句样本重新进行模型的训练,得到新的分类模型后,将更新后的分类模型发送至智能终端,以使得智能终端根据该新模型进行数字信息的识别。
本公开的例子中,对短信中的数字信息进行识别后,可以有多种应用,可以根据识别的结果进行执行一些应用操作和处理,以为人们生活提供方便。例如,当识别到的数字信息的数值小于或等于数值阈值时,则可以根据该数字信息对用户进行数字信息提醒。这个提醒可以是,当话费余额过低时,提醒用户进行话费充值;或者,当流量剩余过少时,提醒用户进行流量充值。
如下列举两个进行数字信息提醒的例子,仍以话费余额的提醒为例:
在一个例子中,假设可以设定一个话费余额的阈值为15元,当通过上述例子中的识别方法确定用户的话费余额为10元时,低于阈值,则可以在短信中显示一个数字信息调整操作的快捷接口,以供用户通过该快捷接口对数字信息进行调整,这里的数字信息调整可以是用户进行话费充值,使得话费余额增加,用户可以通过快捷接口快速进入话费充值页面。
图6示例了该快捷接口的显示方式,如图6所示,智能手机接收到一个运营商短信,经过利用本公开的识别方法进行识别,得到该短信中包括话费金额,并且话费金额为低于10元,小于设定的阈值15元。则可以在本条短信的底端显示一个快捷接口61,该快捷接口61的名称可以设定为“话费充值”,当然也可以用其他名称,比如“快捷充值”、“立刻充值”等。
用户可以点击该快捷接口61,就可以进入给话费充值的页面,比如进入充值网站给话费充值。这种显示快捷接口的方式,用户只要在看到短信时直接点击短信中的接口就可以跳转到充值页面,相对于传统方式中用户还要退出短信重新搜索进入充值页面,将明显提高充值操作的效率。
在另一个例子中,当识别到用户的话费余额已经低于阈值10元时,智能手机还可以向待识别短信的发送端,查询数字信息变化之后的更新值。比如,中国移动向用户发送余额提醒短信后,其实用户一直在使用手机,手机中的余额将会越来越少,那么本例子中,智能手机就可以去主动查询余额的变化情况,比如,每天查询一次余额的剩余(9元、7元、6元等)。但是这个查询可以设置为不被用户所感知的后台查询方式。
当根据查询得到的更新值确定数字信息小于或等于临界告警值时,比如,用户的手机话费余额已经变更为2元,马上就要停机了,则智能手机可以显示数字信息告警通知信息,比如弹出一个告警通知,提醒用户及时充值。这个例子主要是考虑到有的用户在收到话费余额提醒短信后,会忘记充值,可能导致停机,影响用户的使用。通过该方案,可以由智能手机帮助用户后台监测余额的变化,并在临界告警值时及时通知用户尽快充值,避免停机。
图7是根据一示例性实施例示出的模板构建装置的结构图,该装置可以用于实现本公开的模板构建方法,该装置例如可以应用于服务器,如图7所示,可以包括:样本获取模块71、样本处理模块72、分词处理模块73、特征提取模块74、模板构建模块75和模板训练模块76。
样本获取模块71,用于获取原始信息样本集,所述原始信息样本集包括至少一条预设类别的原始信息;
样本处理模块72,用于在所述原始信息中包括预设关键词时,根据预设关键词集合对所述预设关键词进行标注,得到样本训练集;
分词处理模块73,用于对所述样本训练集中的包括所述预设关键词的分句进行分词,得到若干个词语;
特征提取模块74,用于从所述若干个词语中提取出指定特征集合,所述指定特征集合包括至少一个特征词;
模板构建模块75,用于根据所述预设关键词和所述指定特征集合中的所述特征词构建所述模板;
模板训练模块76,用于根据所述样本训练集中的标注结果对所述模板进行训练。
进一步的,特征提取模块74,用于通过如下两个步骤中的其中一个从若干个词语中提取出指定特征集合:根据卡方检验从所述若干个词语中提取出所述指定特征集合;或者,根据信息增益从所述若干个词语中提取出指定特征集合。
进一步的,所述模板构建模块75,用于将所述指定特征集合中的所述特征词和所述预设关键词构建朴素贝叶斯分类器,各个特征词在所述朴素贝叶斯分类器中互相独立。
进一步的,模板训练模块76,用于对于所述朴素贝叶斯分类器中的每个所述特征词,根据所述样本训练集中的标注结果,统计出携带有所述特征词和所述预设关键词的分句为第一分句的数量;根据各个所述特征词、所述预设关键词和所述数量,得到训练后的所述朴素贝叶斯分类器。
进一步的,所述预设关键词为数字信息,所述标注结果为所述数字信息的属性。
图8是根据一示例性实施例示出的信息识别装置的结构图,该装置可以用于实现本公开的信息识别方法,该装置例如可以应用于智能终端,如图8所示,可以包括:分句获取模块81、词语提取模块82和识别处理模块83。
分句获取模块81,用于获取待识别的目标信息中的至少一个分句,所述分句中包括预设关键词;
词语提取模块82,用于对所述分句进行分词得到若干个词语,并从所述若干个词语中提取出指定特征集合,所述指定特征集合包括至少一个特征词;
识别处理模块83,用于根据所述预设关键词、特征词以及预先构建的模板,识别所述分句中的预设关键词的标注结果。
进一步的,识别处理模块83,用于若识别的标注结果是预设标注结果的分句的数量为多个,将识别概率最大的分句中的预设关键词作为预设标注结果的信息。
进一步的,词语提取模块82,用于通过如下两个步骤中的其中一个从若干个词语中提取出指定特征集合:根据卡方检验从所述若干个词语中提取出所述指定特征集合;或者根据信息增益从所述若干个词语中提取出所述指定特征集合。
进一步的,所述预设关键词为数字信息,所述标注结果为所述数字信息的属性、
图9是根据一示例性实施例示出的一种信息识别装置900的框图。例如,装置900可以是动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图9,装置900可以包括以下一个或多个组件:处理组件902,存储器904,电源组件906,多媒体组件908,音频组件910,输入/输出(I/O)的接口912,传感器组件914,以及通信组件916。
处理组件902通常控制装置900的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件902可以包括一个或多个处理器920来执行指令,以完成本公开的信息识别方法。此外,处理组件902可以包括一个或多个模块,便于处理组件902和其他组件之间的交互。例如,处理部件902可以包括多媒体模块,以方便多媒体组件908和处理组件902之间的交互。
存储器904被配置为存储各种类型的数据以支持在设备900的操作。这些数据的示例包括用于在装置900上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件908为装置900的各种组件提供电力。电力组件908可以包括电源管理系统,一个或多个电源,及其他与为装置900生成、管理和分配电力相关联的组件。
多媒体组件908包括在所述装置900和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件908包括一个前置摄像头和/或后置摄像头。当设备900处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件910被配置为输出和/或输入音频信号。例如,音频组件910包括一个麦克风(MIC),当装置900处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中,音频组件90还包括一个扬声器,用于输出音频信号。
I/O接口912为处理组件902和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件914包括一个或多个传感器,用于为装置900提供各个方面的状态评估。例如,传感器组件914可以检测到设备900的打开/关闭状态,组件的相对定位,例如所述组件为装置900的显示器和小键盘,传感器组件914还可以检测装置900或装置900一个组件的位置改变,用户与装置900接触的存在或不存在,装置900方位或加速/减速和装置900的温度变化。传感器组件914可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件914还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件916被配置为便于装置900和其他设备之间有线或无线方式的通信。装置900可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件916还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器,上述指令可由装置的处理器执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图10是根据一示例性实施例示出的一种模板构建装置1000的框图。例如,装置1000可以被提供为一服务器等。参照图10,装置1000包括处理组件1022,其进一步包括一个或多个处理器,以及由存储器1032所代表的存储器资源,用于存储可由处理部件1022的执行的指令,例如应用程序。存储器1032中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1022被配置为执行指令,以执行本公开的模板构建方法。
装置1000还可以包括一个电源组件1026被配置为执行装置1000的电源管理,一个有线或无线网络接口1050被配置为将装置1000连接到网络,和一个输入输出(I/O)接口1058。装置1000可以操作基于存储在存储器1032的操作系统,例如Windows ServerTM,MacOS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (12)

1.一种模板构建方法,其特征在于,所述方法包括:
获取原始信息样本集,所述原始信息样本集包括至少一条预设类别的原始信息;
在所述原始信息中包括预设关键词时,根据预设关键词集合对所述预设关键词进行标注,得到样本训练集;
对所述样本训练集中的包括所述预设关键词的分句进行分词,得到若干个词语;
从所述若干个词语中提取出指定特征集合,所述指定特征集合包括至少一个特征词;
根据所述预设关键词和所述指定特征集合中的所述特征词构建用于识别信息类别的模板;
根据所述样本训练集中的标注结果对所述模板进行训练;
其中,根据所述预设关键词和所述指定特征集合中的所述特征词构建所述模板,包括:
将所述指定特征集合中的所述特征词和所述预设关键词构建朴素贝叶斯分类器,各个特征词在所述朴素贝叶斯分类器中互相独立;
所述根据所述样本训练集中的标注结果对所述模板进行训练,包括:
对于所述朴素贝叶斯分类器中的每个所述特征词,根据所述样本训练集中的标注结果,统计出携带有所述特征词和所述预设关键词的分句为第一分句的数量;
根据各个所述特征词、所述预设关键词和所述数量,得到训练后的所述朴素贝叶斯分类器。
2.根据权利要求1所述的方法,其特征在于,所述从所述若干个词语中提取出指定特征集合,包括以下两个步骤中的其中一个:
根据卡方检验从所述若干个词语中提取出所述指定特征集合;或
根据信息增益从所述若干个词语中提取出所述指定特征集合。
3.根据权利要求1所述的方法,其特征在于,所述在所述原始信息中包括预设关键词时,根据预设关键词集合对所述预设关键词进行标注,得到样本训练集,包括:
在所述原始信息中包括数字信息时,根据预设关键词集合对所述数字信息进行标注,得到样本训练集,其中,所述预设关键词集合包括指示所述数字信息的属性的信息。
4.一种信息识别方法,其特征在于,所述方法包括:
获取待识别的目标信息中的至少一个分句,所述分句中包括预设关键词;
对所述分句进行分词得到若干个词语,并从所述若干个词语中提取出指定特征集合,所述指定特征集合包括至少一个特征词;
根据所述预设关键词、特征词以及预先构建的模板,识别所述分句中的预设关键词的标注结果;
若识别的标注结果是预设标注结果的分句的数量为多个,则将识别概率最大的分句中的预设关键词作为预设标注结果的信息。
5.根据权利要求4所述的方法,其特征在于,所述从所述若干个词语中提取出指定特征集合,包括以下两个步骤中的其中一个:
根据卡方检验从所述若干个词语中提取出所述指定特征集合;或
根据信息增益从所述若干个词语中提取出所述指定特征集合。
6.根据权利要求4所述的方法,其特征在于,所述预设关键词为数字信息,所述标注结果为所述数字信息的属性。
7.一种模板构建装置,其特征在于,所述装置包括:
样本获取模块,用于获取原始信息样本集,所述原始信息样本集包括至少一条预设类别的原始信息;
样本处理模块,用于在所述原始信息中包括预设关键词时,根据预设关键词集合对所述预设关键词进行标注,得到样本训练集;
分词处理模块,用于对所述样本训练集中的包括所述预设关键词的分句进行分词,得到若干个词语;
特征提取模块,用于从所述若干个词语中提取出指定特征集合,所述指定特征集合包括至少一个特征词;
模板构建模块,用于根据所述预设关键词和所述指定特征集合中的所述特征词构建用于识别信息类别的模板;
模板训练模块,用于根据所述样本训练集中的标注结果对所述模板进行训练;
其中,所述模板构建模块,用于将所述指定特征集合中的所述特征词和所述预设关键词构建朴素贝叶斯分类器,各个特征词在所述朴素贝叶斯分类器中互相独立;
所述模板训练模块,用于对于所述朴素贝叶斯分类器中的每个所述特征词,根据所述样本训练集中的标注结果,统计出携带有所述特征词和所述预设关键词的分句为第一分句的数量;根据各个所述特征词、所述预设关键词和所述数量,得到训练后的所述朴素贝叶斯分类器。
8.根据权利要求7所述的装置,其特征在于,
所述特征提取模块,用于通过如下两个步骤中的其中一个从若干个词语中提取出指定特征集合:根据卡方检验从所述若干个词语中提取出所述指定特征集合;或者,根据信息增益从所述若干个词语中提取出指定特征集合。
9.根据权利要求7所述的装置,其特征在于,所述预设关键词为数字信息,所述标注结果为所述数字信息的属性。
10.一种信息识别装置,其特征在于,所述装置包括:
分句获取模块,用于获取待识别的目标信息中的至少一个分句,所述分句中包括预设关键词;
词语提取模块,用于对所述分句进行分词得到若干个词语,并从所述若干个词语中提取出指定特征集合,所述指定特征集合包括至少一个特征词;
识别处理模块,用于根据所述预设关键词、特征词以及预先构建的模板,识别所述分句中的预设关键词的标注结果;
其中,所述识别处理模块,还用于若识别的标注结果是预设标注结果的分句的数量为多个,将识别概率最大的分句中的预设关键词作为预设标注结果的信息。
11.根据权利要求10所述的装置,其特征在于,
所述词语提取模块,用于通过如下两个步骤中的其中一个从若干个词语中提取出指定特征集合:根据卡方检验从所述若干个词语中提取出所述指定特征集合;或者根据信息增益从所述若干个词语中提取出所述指定特征集合。
12.根据权利要求10所述的装置,其特征在于,所述预设关键词为数字信息,所述标注结果为所述数字信息的属性。
CN201510827530.8A 2015-11-24 2015-11-24 模板构建方法和装置、信息识别方法和装置 Active CN105488025B (zh)

Priority Applications (8)

Application Number Priority Date Filing Date Title
CN201510827530.8A CN105488025B (zh) 2015-11-24 2015-11-24 模板构建方法和装置、信息识别方法和装置
RU2016113791A RU2649294C2 (ru) 2015-11-24 2015-12-29 Способ и устройство для построения шаблона и способ и устройство для идентификации информации
PCT/CN2015/099305 WO2017088246A1 (zh) 2015-11-24 2015-12-29 模板构建方法和装置、信息识别方法和装置
KR1020167005592A KR101782754B1 (ko) 2015-11-24 2015-12-29 템플릿 구축 방법 및 장치, 정보 인식 방법 및 장치
MX2016004667A MX2016004667A (es) 2015-11-24 2015-12-29 Metodo y dispositivo para construir una plantilla, metodo y dispositivo para identificar informacion.
JP2017552212A JP2018504728A (ja) 2015-11-24 2015-12-29 テンプレート構築方法及び装置、情報認識方法及び装置
US15/341,144 US10061762B2 (en) 2015-11-24 2016-11-02 Method and device for identifying information, and computer-readable storage medium
EP16197837.4A EP3173940A1 (en) 2015-11-24 2016-11-08 Method and device for identifying information and computer-readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510827530.8A CN105488025B (zh) 2015-11-24 2015-11-24 模板构建方法和装置、信息识别方法和装置

Publications (2)

Publication Number Publication Date
CN105488025A CN105488025A (zh) 2016-04-13
CN105488025B true CN105488025B (zh) 2019-02-12

Family

ID=55675009

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510827530.8A Active CN105488025B (zh) 2015-11-24 2015-11-24 模板构建方法和装置、信息识别方法和装置

Country Status (8)

Country Link
US (1) US10061762B2 (zh)
EP (1) EP3173940A1 (zh)
JP (1) JP2018504728A (zh)
KR (1) KR101782754B1 (zh)
CN (1) CN105488025B (zh)
MX (1) MX2016004667A (zh)
RU (1) RU2649294C2 (zh)
WO (1) WO2017088246A1 (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106060000B (zh) * 2016-05-06 2020-02-07 青岛海信移动通信技术股份有限公司 一种识别验证信息的方法和设备
CN107493370B (zh) * 2016-06-12 2020-08-04 阿里巴巴集团控股有限公司 流量模板确定方法、流量信息识别方法及装置
CN107517463A (zh) * 2016-06-15 2017-12-26 中国移动通信集团浙江有限公司 一种电话号码的识别方法和装置
CN107734131B (zh) * 2016-08-11 2021-02-12 中兴通讯股份有限公司 一种短信息分类方法及装置
US10687341B2 (en) * 2016-09-26 2020-06-16 The Trustees Of Columbia University In The City Of New York Systems, methods, and media for scheduling traffic of a communication session between an application on a WiFi network and another device
WO2018058145A1 (en) 2016-09-26 2018-03-29 Yudong Yang Scheduling traffic of an application communication session between a wifi network and a device
US11259352B2 (en) 2016-09-26 2022-02-22 The Trustees Of Columbia University In The City Of New York Systems, methods, and media for providing multi-homing
CN108616413B (zh) * 2016-12-13 2020-09-11 百度在线网络技术(北京)有限公司 信息校准方法和装置
KR101901965B1 (ko) * 2017-01-12 2018-09-28 엘에스산전 주식회사 프로젝트 화면 작성장치
CN106899949B (zh) * 2017-01-23 2019-11-08 北京思特奇信息技术股份有限公司 手机短信通知格式的调整配置方法及系统
CN107391363B (zh) * 2017-06-30 2020-07-03 北京金山安全软件有限公司 一种测试资源的调度方法、装置及电子设备
CN107315739A (zh) * 2017-07-12 2017-11-03 安徽博约信息科技股份有限公司 一种语义分析方法
CN107632975A (zh) * 2017-08-09 2018-01-26 联动优势科技有限公司 一种词典建立方法及设备
CN109558887A (zh) * 2017-09-27 2019-04-02 北京京东尚科信息技术有限公司 一种预测行为的方法和装置
CN108038108B (zh) * 2017-12-27 2021-12-10 东软集团股份有限公司 分词模型训练方法和装置、及存储介质
CN110392155B (zh) * 2018-04-16 2022-05-24 阿里巴巴集团控股有限公司 通知消息的显示、处理方法、装置及设备
CN109815488A (zh) * 2018-12-26 2019-05-28 出门问问信息科技有限公司 自然语言理解训练数据生成方法、装置、设备及存储介质
WO2020145591A1 (ko) * 2019-01-08 2020-07-16 주식회사 에치에프알 자연 언어 기반 블록 체인 스마트 계약 생성방법 및 그를 위한 장치
KR102142688B1 (ko) * 2019-01-08 2020-08-07 주식회사 에치에프알 자연 언어 기반 블록 체인 스마트 계약 생성방법 및 그를 위한 장치
CN110147433B (zh) * 2019-05-21 2021-01-29 北京鸿联九五信息产业有限公司 一种基于字典树的文本模板提取方法
CN110349424A (zh) * 2019-06-28 2019-10-18 京东数字科技控股有限公司 一种基于车路协同的路侧系统
CN110889451B (zh) * 2019-11-26 2023-07-07 Oppo广东移动通信有限公司 事件审计方法、装置、终端设备以及存储介质
CN112667886A (zh) * 2020-12-02 2021-04-16 浙江学海教育科技有限公司 不当评论检测方法、装置、设备及介质
CN115859964B (zh) * 2022-11-24 2023-04-28 安徽冠成教育科技有限公司 基于教育云平台的教育资源共享方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7756535B1 (en) * 2006-07-07 2010-07-13 Trend Micro Incorporated Lightweight content filtering system for mobile phones
CN102024045A (zh) * 2010-12-14 2011-04-20 成都市华为赛门铁克科技有限公司 信息分类处理方法、装置和终端
US8023974B1 (en) * 2007-02-15 2011-09-20 Trend Micro Incorporated Lightweight SVM-based content filtering system for mobile phones
CN102404462A (zh) * 2010-09-08 2012-04-04 北京商路通信息技术有限公司 一种用于电话外拨系统的呼叫进程分析方法和设备
CN103914530A (zh) * 2014-03-31 2014-07-09 北京中科模识科技有限公司 广播电视节目中违规广告的监测方法和系统
CN104081385A (zh) * 2011-04-29 2014-10-01 汤姆森路透社全球资源公司 从文档表示信息
CN104217717A (zh) * 2013-05-29 2014-12-17 腾讯科技(深圳)有限公司 构建语言模型的方法及装置
CN104346326A (zh) * 2014-10-23 2015-02-11 苏州大学 一种情绪文本的情绪特征确定方法及装置
CN105447750A (zh) * 2015-11-17 2016-03-30 小米科技有限责任公司 信息识别方法、装置、终端及服务器

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5991748A (en) * 1996-12-06 1999-11-23 American Express Travel Related Services Company, Inc. Methods and apparatus for regenerating a prepaid transaction account
US6192360B1 (en) 1998-06-23 2001-02-20 Microsoft Corporation Methods and apparatus for classifying text and for building a text classifier
SG93868A1 (en) * 2000-06-07 2003-01-21 Kent Ridge Digital Labs Method and system for user-configurable clustering of information
US7376635B1 (en) * 2000-07-21 2008-05-20 Ford Global Technologies, Llc Theme-based system and method for classifying documents
EP1404100A1 (en) * 2002-09-30 2004-03-31 Koninklijke KPN N.V. Billing of differentiated services
KR100487718B1 (ko) 2002-12-20 2005-05-03 한국전자통신연구원 영역 외 코퍼스를 이용한 영역 종속적 훈련 코퍼스 보강시스템 및 그 방법
US7412385B2 (en) * 2003-11-12 2008-08-12 Microsoft Corporation System for identifying paraphrases using machine translation
US7003280B2 (en) * 2003-11-20 2006-02-21 Lucent Technologies Inc. Method and system for processing adjustments to the type and quality of multimedia communication sessions
US8000455B1 (en) * 2004-12-09 2011-08-16 Callwave, Inc. Methods and systems for call processing
US7457808B2 (en) * 2004-12-17 2008-11-25 Xerox Corporation Method and apparatus for explaining categorization decisions
JP2006301972A (ja) 2005-04-20 2006-11-02 Mihatenu Yume:Kk 電子秘書装置
US8073472B1 (en) * 2005-08-26 2011-12-06 Openwave Systems Inc. System and method for providing prepaid billing for instant messaging users
JP4831737B2 (ja) * 2006-02-06 2011-12-07 独立行政法人情報通信研究機構 キーワード強調装置及びプログラム
US9318108B2 (en) * 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
CN101154379B (zh) * 2006-09-27 2011-11-23 夏普株式会社 定位语音中的关键词的方法和设备以及语音识别系统
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US20090125529A1 (en) * 2007-11-12 2009-05-14 Vydiswaran V G Vinod Extracting information based on document structure and characteristics of attributes
JP5311378B2 (ja) * 2008-06-26 2013-10-09 国立大学法人京都大学 特徴語自動学習システム、コンテンツ連動型広告配信コンピュータシステム、検索連動型広告配信コンピュータシステム、およびテキスト分類コンピュータシステム、並びにこれらのコンピュータプログラムおよび方法
JP2010056682A (ja) * 2008-08-26 2010-03-11 National Institute Of Information & Communication Technology 電子メール受信装置及び電子メール受信方法、電子メール送信装置及び電子メール送信方法、メール送信サーバ
US8346534B2 (en) * 2008-11-06 2013-01-01 University of North Texas System Method, system and apparatus for automatic keyword extraction
JP5426868B2 (ja) * 2008-11-11 2014-02-26 株式会社日立製作所 数値表現処理装置
JP5152918B2 (ja) * 2008-11-27 2013-02-27 日本電信電話株式会社 固有表現抽出装置、その方法およびプログラム
JP5299963B2 (ja) * 2009-02-06 2013-09-25 株式会社日立製作所 分析システム及び情報分析方法
US8291319B2 (en) * 2009-08-28 2012-10-16 International Business Machines Corporation Intelligent self-enabled solution discovery
US8589231B2 (en) * 2010-01-28 2013-11-19 Yahoo! Inc. Sensitivity categorization of web pages
CA2747153A1 (en) * 2011-07-19 2013-01-19 Suleman Kaheer Natural language processing dialog system for obtaining goods, services or information
CN102984783B (zh) * 2011-09-02 2015-03-25 阿尔卡特朗讯公司 一种用于控制终端访问无线网络的方法和装置
US8655393B2 (en) * 2011-11-02 2014-02-18 Idt Corporation System and method for communicating using two-way SMS
JP5776539B2 (ja) * 2011-12-26 2015-09-09 富士通株式会社 抽出装置、抽出プログラム、および抽出方法
US9575963B2 (en) * 2012-04-20 2017-02-21 Maluuba Inc. Conversational agent
US9715493B2 (en) * 2012-09-28 2017-07-25 Semeon Analytics Inc. Method and system for monitoring social media and analyzing text to automate classification of user posts using a facet based relevance assessment model
CN104717342B (zh) 2013-12-11 2018-11-09 阿里巴巴集团控股有限公司 一种基于短信息唤醒客户端应用的方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7756535B1 (en) * 2006-07-07 2010-07-13 Trend Micro Incorporated Lightweight content filtering system for mobile phones
US8023974B1 (en) * 2007-02-15 2011-09-20 Trend Micro Incorporated Lightweight SVM-based content filtering system for mobile phones
CN102404462A (zh) * 2010-09-08 2012-04-04 北京商路通信息技术有限公司 一种用于电话外拨系统的呼叫进程分析方法和设备
CN102024045A (zh) * 2010-12-14 2011-04-20 成都市华为赛门铁克科技有限公司 信息分类处理方法、装置和终端
CN104081385A (zh) * 2011-04-29 2014-10-01 汤姆森路透社全球资源公司 从文档表示信息
CN104217717A (zh) * 2013-05-29 2014-12-17 腾讯科技(深圳)有限公司 构建语言模型的方法及装置
CN103914530A (zh) * 2014-03-31 2014-07-09 北京中科模识科技有限公司 广播电视节目中违规广告的监测方法和系统
CN104346326A (zh) * 2014-10-23 2015-02-11 苏州大学 一种情绪文本的情绪特征确定方法及装置
CN105447750A (zh) * 2015-11-17 2016-03-30 小米科技有限责任公司 信息识别方法、装置、终端及服务器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
文本分类中特征选择的研究与实现;范小丽;《中国优秀硕士学位论文全文数据库 信息科技辑》;20110815;第I138-691页

Also Published As

Publication number Publication date
US10061762B2 (en) 2018-08-28
US20170147553A1 (en) 2017-05-25
MX2016004667A (es) 2017-08-09
KR101782754B1 (ko) 2017-09-27
RU2649294C2 (ru) 2018-03-30
JP2018504728A (ja) 2018-02-15
KR20170073542A (ko) 2017-06-28
RU2016113791A (ru) 2017-10-19
WO2017088246A1 (zh) 2017-06-01
CN105488025A (zh) 2016-04-13
EP3173940A1 (en) 2017-05-31

Similar Documents

Publication Publication Date Title
CN105488025B (zh) 模板构建方法和装置、信息识别方法和装置
CN105100366B (zh) 骚扰电话号码确定方法、装置和系统
CN104572905B (zh) 照片索引创建方法、照片搜索方法及装置
CN105426152B (zh) 弹幕的显示方法和装置
US11394675B2 (en) Method and device for commenting on multimedia resource
CN105094814B (zh) 通知消息展示方法和装置
CN105447750B (zh) 信息识别方法、装置、终端及服务器
CN109389162B (zh) 样本图像筛选方法和装置、电子设备及存储介质
CN104378441B (zh) 日程创建方法和装置
US20170052947A1 (en) Methods and devices for training a classifier and recognizing a type of information
CN111539443B (zh) 一种图像识别模型训练方法及装置、存储介质
CN104239566B (zh) 视频搜索的方法及装置
CN105224601B (zh) 一种提取时间信息的方法和装置
CN110147467A (zh) 一种文本描述的生成方法、装置、移动终端及存储介质
CN104063865B (zh) 分类模型创建方法、图像分割方法及相关装置
CN105528403B (zh) 目标数据识别方法及装置
CN109389220A (zh) 神经网络模型的处理方法、装置、电子设备以及存储介质
CN108121736A (zh) 一种主题词确定模型的建立方法、装置及电子设备
CN105354284B (zh) 模板的处理方法及装置、短信识别方法及装置
CN110222256A (zh) 一种信息推荐方法、装置和用于信息推荐的装置
CN108320208A (zh) 车辆推荐方法及装置
CN109002184A (zh) 一种输入法候选词的联想方法和装置
US20170034092A1 (en) Method and device for processing short message
CN104850855B (zh) 计算置信度的方法和装置
CN110069624A (zh) 文本处理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant