CN108228682A - 字符串验证方法、字符串扩充方法与验证模型训练方法 - Google Patents
字符串验证方法、字符串扩充方法与验证模型训练方法 Download PDFInfo
- Publication number
- CN108228682A CN108228682A CN201611243457.0A CN201611243457A CN108228682A CN 108228682 A CN108228682 A CN 108228682A CN 201611243457 A CN201611243457 A CN 201611243457A CN 108228682 A CN108228682 A CN 108228682A
- Authority
- CN
- China
- Prior art keywords
- character string
- checked
- classification
- verification
- name
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012795 verification Methods 0.000 title claims abstract description 83
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012549 training Methods 0.000 title claims abstract description 20
- 230000006870 function Effects 0.000 claims description 28
- 239000013598 vector Substances 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000012706 support-vector machine Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 239000002131 composite material Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 235000013305 food Nutrition 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 235000001674 Agaricus brunnescens Nutrition 0.000 description 1
- 241000501754 Astronotus ocellatus Species 0.000 description 1
- 244000025254 Cannabis sativa Species 0.000 description 1
- 244000269722 Thea sinensis Species 0.000 description 1
- 235000006468 Thea sinensis Nutrition 0.000 description 1
- 235000020279 black tea Nutrition 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012850 discrimination method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 208000011580 syndromic disease Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3338—Query expansion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Abstract
本发明提供了一种字符串验证方法、字符串扩充方法与验证模型训练方法,其中字符串验证方法包含下列步骤:撷取一个待验名称字符串。依据前述待验名称字符串产生一个待查询字符串。对前述待查询字符串使用自动语汇推荐功能以取得至少一个回传字符串。从前述至少一个回传字符串中撷取至少一笔特征数据。依据前述至少一笔特征数据与一个验证模型判断前述待验名称字符串的分类。
Description
技术领域
本发明关于一种字符串验证方法、字符串扩充方法与验证模型训练方法。
背景技术
在以人工智能作文字分析处理的领域中,机器学习仰赖大量的训练文本。而文本内的字符串对应的意义也是机器所需要学习的基础知识。字符串往往有其分类,例如“恶魔四伏”指涉的是一部007系列的电影,而“恶魔高校”指涉的是一部小说。于这样的例子中,恶魔四伏与恶魔高校这样的字符串可分别被视为电影及小说此二类命名实体(NamedEntity)。具体来说,这样的字符串实际对应到一个特定的人、事、物等,并且属于各个不同的命名实体类型。
传统的命名实体辨识需仰赖训练文本的事前人工标记建构,而且命名实体的类型也需事先加以定义。因此若无此类已经标记好的文本,便无法进行命名实体的辨识工作。实际在应用上,若使用者仅提供一些词组、字符串或部分短句等就要做命名实体辨识的工作,在传统方法必须要有文本的前提下,很难加以应用。并且,传统的辨识方法只能根据前后文的特征来辨识出命名实体,但这些前后文特征为语言相依的,无法处理多种语言混杂的情形。现有具备命名实体辨识功能的产品大多都有地域性限制,不同地区因语系差异,无法一体适用,必须个别量身订做,且发展时程长,且对新类型的命名实体的辨识无法迅速因应,业务推展受到局限。
发明内容
综上所述,本发明旨在提供一种命名实体字符串的验证方法、扩充方法与验证模型的训练方法,以使得命名实体的辨识能自动化。
依据本发明一实施例的字符串验证方法,包含下列步骤:撷取一个待验名称字符串、依据前述待验名称字符串产生一个待查询字符串、对前述待查询字符串使用自动语汇推荐功能以取得至少一个回传字符串、从前述至少一个回传字符串中撷取至少一笔特征数据,依据前述至少一笔特征数据与验证模型判断前述待验名称字符串的分类。
依据本发明一实施例的字符串扩充方法,包含:从字符串库中的多个字符串中产生一个待查询字符串。对前述待查询字符串使用自动语汇推荐功能以取得至少一个回传字符串。分析前述回传字符串以扩充字符串库。
依据本发明一实施例的验证模型训练方法,包含:撷取属于第一分类的多个第一字符串。以前述多个第一字符串产生一个第一待查询字符串。对前述第一待查询字符串使用自动语汇推荐功能以取得至少一个第一回传字符串。依据前述第一待查询字符串与前述第一回传字符串,撷取用于验证第一分类的至少一笔第一特征数据。依据前述至少一笔第一特征数据,训练关于第一分类的验证模型。
综上所述,本发明提供的字符串验证方法、字符串扩充方法与验证模型训练方法,通过使用具备自动语汇推荐功能的系统,获取多数人使用来检索、搜寻的字符串等以作为字符串分类判断的基准。因此,字符串的分类与扩充得以自动化地进行。
附图说明
图1为用以实现本发明的方法的系统架构图。
图2为依据本发明一实施例的方法流程图。
图3为依据本发明一实施例的字符串扩充方法流程图。
图4为依据本发明一实施例的字符串扩充系统功能方块图。
图5为依据本发明一实施例的验证模型建立方法流程图。
附图标记说明
1000 字符串验证系统
1100、4100 输入模块
1110、4110 语言辨识单元
1120、4120 地区辨识单元
1200、4200 查询字符串组合模块
1300 特征数据撷取模块
1400 类型验证计算模块
1600 验证词组产生模块
1700 验证模型训练模块
2000 验证模型
3000 搜索引擎
4000 字符串扩充系统
4300 候选名称字符串撷取模块
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
请参照图1与图2,其中图1为用以实现本发明的方法的系统架构图,而图2为依据本发明一实施例的方法流程图。如图1所示,本发明一实施例的系统包含字符串验证系统1000与验证模型2000。于一实施例中,前述系统运行于一个服务器上的软件函式,而前述验证模型系储存于服务器的储存媒介中。如图2所示,当字符串验证系统1000运行时,首先执行步骤S210,字符串验证系统1000的输入模块1100撷取一个待验名称字符串。于一种实施态样中,待验名称字符串可以是用户想要查询并输入至系统的一个字符串。于另一实施态样中,待验名称字符串是系统执行机器学习时,从一篇文章中辨识出来的一个非连接词字符串。当从文章辨识待查询字符串时,于一实施例中使用TF-IDF(Term Frequency-InverseDocument Frequency)方法来抓取待验名称字符串。
于一实施例中,如图1所示,输入模块1100具有语言辨识单元1110,因此,所撷取到的待验名称字符串的语言就会被语言辨识单元1110所辨识。举例来说,输入模块1100从一篇德文文章中撷取到字符串“die”的时候,该字符串会被辨识为德文。并且因为“die”在德文中用作冠词使用,因此最终不会被选择为待验名称字符串。另一方面,如果输入模块1100是从一篇英文文章中撷取到字符串“die”的时候,则该字符串被辨识为英文,且因为“die”在英文中的意义是死亡,因此输入模块1100有机会将字符串“die”撷取为待验名称字符串或待验名称字符串的一部分。
于另一实施例中,输入模块1100得具有地区辨识单元1120。因此若是在台湾的用户输入待验名称字符串“恶魔岛”的时候,待验名称字符串“恶魔岛”的地区会被设定为台湾。反之,若是在加州的用户输入待验名称字符串“恶魔岛”的时候,待验名称字符串“恶魔岛”的地区会被设定为加州。于后面的实施例中介绍其作用。
接着执行步骤S220,字符串验证系统1000的查询字符串组合模块1200将待验名称字符串设定为待查询字符串。于一实施例中,待验名称字符串“美国队长”中的元素有“美国”、“队长”、“美国队”与“美国队长”。而待验名称字符串“托斯卡尼艳阳下”中的元素有“托斯卡尼”、“艳阳”、“艳阳下”与“托斯卡尼艳阳下”。因此查询字符串组合模块1200于一实施例中可直接将待验名称字符串“美国队长”设定为待查询字符串。于另一实施例中,查询字符串组合模块1200可以用“美国”作为待查询字符串。于再一实施例中,如果输入模块1100同时有撷取到待验名称字符串“美国队长”对应的一个待验分类“电影”。则查询字符串组合模块1200以待验名称字符串“美国队长”与待验分类“电影”所对应的伴随字符串“线上看”来产生待查询字符串“美国队长线上看”。于另一些实施例中,在产生待查询字符串的时候,也可以在待验名称字符串“美国队长”后加入空格符、数字、空格符加数字等,来产生“美国队长”、“美国队长2”、“美国队长3”等待查询字符串。本发明并不限制产生待查询字符串的方法如上。于此,伴随字符串是可能与待验名称字符串有关联的字符串,被用来辅助字符串的验证。
接着如步骤S230,字符串验证系统1000的特征数据撷取模块1300对待查询字符串使用自动语汇推荐功能以取得回传字符串。所谓的自动语汇推荐功能一般或称为关联词提示或相关查询词建议。于此所指涉的自动语汇推荐功能(Automatic Term Suggestion)也可以是自动完成功能(Auto-Complete)或具有类似作动的服务。也就是当一个字符串被输入具有所述功能的系统时,会对应产生基于(包含)这个输入的字符串而产生的一个或多个字符串。举例来说,特征数据撷取模块1300将待查询字符串填入具有自动语汇推荐功能或是自动完成功能的搜索引擎3000或是检索数据库。例如将待查询字符串“托斯卡尼艳阳下”填入网络搜索引擎所提供的自动完成(Auto-Complete)服务系统中(例如谷歌搜索引擎),则能得到回传字符串为“托斯卡尼艳阳下线上看”、“托斯卡尼艳阳下台词”、“托斯卡尼艳阳下书”、“托斯卡尼艳阳下景点”与“托斯卡尼艳阳下下载”。如步骤S240,特征数据撷取模块1300从回传字符串撷取特征数据。举例来说,前述的例子中,特征数据撷取模块1300得以撷取到特征数据“台词”、“线上看”、“书”、“景点”与“下载”。实际上,并非每次都能撷取导多笔特征数据,因此于一些实施例中,即使撷取到一笔特征数据,也能继续后续的步骤。
接着在步骤S250中,字符串验证系统1000的类型验证计算模块1400依据撷取到的特征数据与验证模型2000来判断待验名称字符串的分类。于一实施例中,步骤S250具有下列步骤:依据撷取到的特征数据,计算对应的特征值。并依据特征值与验证模型2000,判断待验名称字符串的分类。于一实施例中,在计算特征值时,依据验证模型中其中一个分类对应的多个验证词组,判断待查询字符串对应的一个或多个特征数据是否对应前述分类的验证词组。所谓的验证词组,就是验证模型2000中,用于验证一个待验字符串是否属于某个分类的一个或多个字(词)组合。通常是由关于该分类的关联词组中选择出来的,其方法于后续段落中讨论。而关联词组就是将该分类所对应的词组送至具有自动语汇推荐功能的系统/服务时,所获得的回传字符串中所撷取的多个特征数据的部分(例如一个或两个特征数据)或全部的特征数据。具体来说,一个分类的验证词组是此分类的关联词组的子集合。而关联词组为分析所撷取的特征数据而得到的。而于一个实施例中,前述的伴随字符串可以是选自待验分类的关联词组。关于分析特征数据得到关联词组的实作方式于后续实施例解释。
并依据前述多个判断结果,产生特征向量作为特征值。举例来说,如果验证模型2000中,电影分类的验证词组有“电影”、“影评”、“演员”、“台词”、“场景”、“奥斯卡”、“票房”与“线上看”等等,则前述关于“托斯卡尼艳阳下”的特征数据符合了线上看、电影、台词。因此托斯卡尼艳阳下的特征向量可以被定义为[线上看,电影,台词]。依照这样的特征向量以及验证模型2000,类型验证计算模块1400可以判断托斯卡尼艳阳下是否该被分类为电影。于一实施例中,验证模型2000具有三个分类:餐厅、电影与歌曲。每个分类各具有15个验证词组,其中在每个分类选取验证词组时,选择该分类中的字符串被填入搜索引擎3000时,回传的字符串中出现次数(词频)最高的15个特征数据作为验证词组。由于有些验证词组同时对应于两个或三个分类,因此三个分类总计有38个验证词组。类型验证计算模块1400将这38个验证词组作为基底。于一实施例中,类型验证计算模块1400将待查询字符串“托斯卡尼艳阳下”的特征向量扩充为38维的特征向量,并且每个分类自己的特征向量也是38维的特征向量。类型验证计算模块1400将待查询字符串的特征向量分别与三个分类的特征向量以深度神经网络(Deep Neuron Network,DNN)或是支持向量机(Support Vector Machine,SVM)或是多层感知器(Multilayer Perceptron,MLP)进行估算,从而得到三个判断结果,也就是判断“托斯卡尼艳阳下”是否属于餐厅类型、电影类型或歌曲类型。
于一实施例中,类型验证计算模块1400并非以特征向量以及类神经网络等人工智能的方式来进行分类验证。相对地类型验证计算模块1400从验证模型2000选择一个分类,所选择的分类对应的多个关联词组中部分被选为验证词组。举例来说,在比对餐厅分类时,关联词组为“菜单”、“食记”、“餐厅”、“价位”、“台北”、“推荐”、“台中”、“分店”等等。于一实施例中,前述关联词组中,词频较高的几个关联词组“菜单”、“食记”、“餐厅”、“价位”与“分店”作为餐厅分类的验证词组。而托斯卡尼艳阳下对应的特征数据比对餐厅分类的多个验证词组的结果是全部不符合。反之托斯卡尼艳阳下的特征数据在比对电影分类的多个验证词组的结果是有三个符合。因此类型验证计算模块1400把托斯卡尼艳阳下分类为电影而非餐厅。
于一实施例中,待验名称字符串例如“恶魔岛”在不同的地区有不同的意涵。举例来说,在台湾,恶魔岛是一间餐厅的名称,在加州,恶魔岛是一个旅游景点。因此,如同前述地,当输入模块1100的地区辨识单元1120撷取到用户是在台湾,或是地区辨识单元1120判断系统当前处理的文件所讨论的环境是在台湾,则查询字符串组合模块1200所产生的查询字符串例如为“台湾恶魔岛”或是“恶魔岛台湾”。如此,回传字符串会被限制而不会关联于加州的恶魔岛。又或者特征数据撷取模块1300在对待查询字符串“恶魔岛”使用自动语汇推荐功能的时候,限定回传字符串关联的地区是台湾。类似地,输入模块1100的语言辨识单元1110如果判断所撷取的待验名称字符串的语言是英文,则在使用自动语汇推荐功能时,特征数据撷取模块1300得以限制回传字符串的语言是英文,如此可以避免回传字符串中带有太多非目标地区/语言的干扰数据。
此外,于本发明一实施例中,还揭示了一种字符串扩充方法。具体来说,随着人们使用语言沟通,所用到的语汇(字符串)必然不再只限于辞典中的字符串。举例来说,辞典中就不会有“九十后”、“淡定红茶”或是“蓝瘦香菇”这样的字符串。因此本发明还提供了一种应用前述字符串验证系统1000来扩充辞典的字符串数量的方法。请参照图3与图4,其中图3为依据本发明一实施例的字符串扩充方法流程图,而图4为依据本发明一实施例的字符串扩充系统功能方块图。其中图4的字符串扩充系统4000具有输入模块4100、查询字符串组合模块4200与候选名称字符串撷取模块4300。其中输入模块4100与查询字符串组合模块4200的功能与前述字符串验证系统1000的输入模块1100与查询字符串组合模块1200相同。如图3所示,于步骤S310中,输入模块4100从字符串库的多个字符串中产生一个待查询字符串。同样的于一实施例中,输入模块4100的语言辨识单元4110与地区辨识单元4120也能辨识字符串库的语言/地区。而如步骤S330所示,候选名称字符串撷取模块4300对待查询字符串使用自动语汇推荐功能或是自动完成功能(例如使用具此类功能的搜索引擎3000)以取得对应的回传字符串。再如步骤S340,候选名称字符串撷取模块4300分析回传字符串,取得其中除了待查询字符串以外的部分为候选名称字符串。并且比较候选名称字符串与字符串库的字符串来判断候选名称字符串是否已属于字符串库的所述多个字符串其中之一。当候选名称字符串不同于字符串库中所有的字符串,则候选名称字符串撷取模块4300将候选名称字符串新增进字符串库来扩充字符串库中的字符串数量。在一种实作方式中,会限制待查询字符串中包含第一字符串的数量的上限。举例来说,待查询字符串中的字符串数上限被设定为3,则待查询字符串中最多由三个第一字符串所构成。于另一种实作方式中,当字符串数上限被设定为3,则待查询字符串就是由三个第一字符串所构成。于一实施例中,此处的第一字符串可以是一个英文字(word)或是一个中文字。然而,于其他实施例中,第一字符串也可以是辞典中的一个词,例如“今日”。于再一些实施例中,当字符串数上限被设定为3,表示字符串中的单字总数限定为3,因此所产生的待查询字符串就会是三字词。此处的待查询字符串例如直接选用三字词如“幸运草”、“千里马”等,或是选用二字词与一字词构成的字符串,例如由“线上”与“看”构成的“线上看”。因此,即使辞典中原来没有“线上看”这样的词组,经由上述流程后能够将“线上看”作为待查询字符串,进而取得与线上看有关的回传字符串。
于另一实施例中,假设所选取的第一字符串属于电影类别,因此在用第一字符串组成待查询字符串时,还可以选择关联于所选取的第一字符串的伴随字符串。举例来说,当所选取的第一字符串例如为“超人”与“蝙蝠侠”的时候,伴随字符串例如可以是电影类别的验证词组“线上看”、“影评”、“演员”等等。因此产生的待查询字符串例如为“超人蝙蝠侠线上看”,而收到的回传字符串中包含有“正义黎明”、“蝙蝠侠大战超人”,且这些回传字符串并不存在于原本对应该类别的字符串库中。因此可以新增字符串“正义黎明”与“蝙蝠侠大战超人”。由上述多个实施例可知,将前述的各模块撰写为计算机程序,并由计算机执行,则字符串库中命名实体字符串的数量可以自动地被扩充。
于一实施例中,本发明还揭示了一种使用前述字符串验证系统1000来建立验证模型2000的方法。请参照图5,其为依据本发明一实施例的验证模型建立方法流程图。如图5所示,首先如步骤S410,输入模块1100撷取多个第一字符串,第一字符串均属于第一分类。举例来说,从辞典或数据库中撷取1000部电影名称。也就是所撷取的1000个第一字符串(电影名称)的类别都是电影。接着如步骤S420所示,查询字符串组合模块1200以所选择的多个第一字符串来产生第一待查询字符串。具体来说,例如直接以电影名称作为第一待查询字符串,或是在电影名称后面加入空格符,或是在电影名称后面加入数字来产生第一待查询字符串。并且如步骤S430所示,特征数据撷取模块1300对第一待查询字符串使用自动语汇推荐功能来取得一个或多个第一回传字符串。再如步骤S440所示,特征数据撷取模块1300依据第一待查询字符串与第一回传字符串,来撷取用于验证第一分类的第一特征数据。具体来说,就是前述的对应于第一分类(电影)的关联词组。于一实施例中,接着如步骤S450所示,字符串验证系统1000的验证词组产生模块1600从得到的多个关联词组中,选择词频较高的关联词组来得到用来验证第一分类的验证词组,以建立关于第一分类的验证模型2000。此处,验证词组产生模块1600可以使用TF-IDF(Term Frequency-Inverse DocumentFrequency)方法来特征数据中过滤出多个关联词组,并从关联词组中过滤出词频较高又有意义的验证词组。
于另一实施例中,在步骤S440后,如步骤S460所示,字符串验证系统1000的验证模型训练模块1700依照前述得到的多个关联词组,以深度神经网络、支持向量机、模糊逻辑、类神经网络、多层感知器或是其他人工智能的方法来建立/训练关于第一分类的验证模型2000。
于另一实施例中,除了撷取属于第一分类(电影)的1000个字符串以外,输入模块1100还撷取多个第二字符串,而这些第二字符串不属于第一分类。并且查询字符串组合模块1200以这些第二字符串来产生第二待查询字符串。而特征数据撷取模块1300对第二待查询字符串使用自动语汇推荐功能则能取得第二回传字符串。同样的,特征数据撷取模块1300得以从第二回传字符串中取得第二特征数据(第二关联词组)。这些第二特征数据都是非相关于第一类别(电影类别)的,因此于一实施例中,验证词组产生模块1600得以利用这些第二特征数据,来更精确的从关于第一类别的关联词组中过滤出验证词组。于另一实施例中,这些第二特征数据也能被验证模型训练模块1700用来训练验证模型2000。于此实施例中,仅需输入足量的数据,并将上述图5的流程以程序由计算机执行,即能自动地训练出验证模型。
综上所述,依据本发明的实施例,字符串验证系统得以自动的判别待验名称字符串的地区、语言,并且自动地验证其类型。此外,于本发明另一实施例中,验证模型得以自动地被训练。于本发明再一实施例中,字符串库中的字符串数量得以自动地扩充最新的命名实体字符串。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (18)
1.一种字符串验证方法,其特征在于,包含:
撷取待验名称字符串;
依据该待验名称字符串产生待查询字符串;
对该待查询字符串使用自动语汇推荐功能以取得至少一回传字符串;
从该至少一回传字符串中撷取至少一特征数据;以及
依据该至少一特征数据与验证模型判断该待验名称字符串的分类。
2.根据权利要求1所述的方法,其中于撷取该待验名称字符串时,更包含撷取关联于该待验名称字符串的语言或地区,并且于产生该待查询字符串的步骤还依据该语言或该地区产生该待查询字符串。
3.根据权利要求2所述的方法,其中于从该至少一回传字符串中撷取该至少一特征数据的步骤是依据该语言或该地区。
4.根据权利要求1所述的方法,其中于依据该至少一特征数据与该验证模型判断该待验名称字符串的分类步骤中包含:
依据该至少一特征数据计算特征值;以及
依据该特征值与该验证模型,判断该待验名称字符串的分类。
5.根据权利要求4所述的方法,其中于依据该至少一特征数据计算该特征值的步骤中,包含:
依据该验证模型中一分类的多个验证词组,判断该至少一特征数据是否对应所述多个验证词组;以及
依据前述多个判断结果,产生特征向量作为该特征值。
6.根据权利要求4所述的方法,其中该特征值包含该至少一特征数据,且于依据该特征值与该验证模型判断该待验名称字符串的分类的步骤中包含:
从该验证模型中选择第一分类,该第一分类对应于至少一验证词组;以及
判断该至少一特征数据是否对应该至少一验证词组,以判断该待验名称字符串是否属于该第一分类。
7.根据权利要求4所述的方法,其中于依据该至少一特征数据计算该特征值的步骤中,包含以该至少一特征数据产生特征向量,且于依据该特征值与该验证模型,判断该待验名称字符串的分类的步骤中,依据该特征向量与该验证模型以判断该待验名称字符串的分类。
8.根据权利要求1所述的方法,其中于撷取该待验名称字符串的步骤中,还撷取分类,且于判断该待验名称字符串的分类的步骤中为判断该待验名称字符串是否属于该分类。
9.根据权利要求8所述的方法,其中于产生该待查询字符串的步骤中还依据关于该分类的至少一伴随字符串产生该待查询字符串。
10.一种字符串扩充方法,其特征在于,包含:
从字符串库中的多个字符串产生待查询字符串;
对该待查询字符串使用自动语汇推荐功能以取得至少一回传字符串;以及
分析该至少一回传字符串以扩充该字符串库。
11.根据权利要求10所述的方法,还包含取得字符串数上限,并且于产生该待查询字符串的步骤中,包含:
从该字符串库的所述多个字符串选择N个第一字符串,其中N为小于等于该字符串数上限的正整数;以及
依据该N个被选择的第一字符串产生该待查询字符串。
12.根据权利要求10所述的方法,其中于分析该至少一回传字符串以扩充该字符串库的步骤中包含:
比对该至少一回传字符串其中之一与该字符串库的所述多个字符串;以及
当所比对的该回传字符串不属于该字符串库的所述多个字符串时,以所比对的该回传字符串扩充该字符串库的所述多个字符串。
13.根据权利要求10所述的方法,其中于撷取所述多个第一字符串时,还撷取关于每一个该第一字符串的地区或语言,且于产生该待查询字符串的步骤中,还依据该地区或该语言产生该待查询字符串。
14.根据权利要求10所述的方法,其中于产生该待查询字符串的步骤中,包含:
从该字符串库的所述多个字符串中选择属于第一分类的多个第一字符串;
选择部分所述多个第一字符串;
选择关联于该第一分类的至少一伴随字符串;以及
依据被选择的部分所述多个第一字符串与该至少一伴随字符串以得到该待查询字符串。
15.一种验证模型训练方法,其特征在于,包含:
撷取多个第一字符串,所述多个第一字符串属于第一分类;
以所述多个第一字符串产生第一待查询字符串;
对该第一待查询字符串使用自动语汇推荐功能以取得至少一第一回传字符串;
依据该第一待查询字符串与该至少一第一回传字符串,撷取用于验证该第一分类的至少一第一特征数据;以及
依据该至少一第一特征数据,训练关于该第一分类的验证模型。
16.根据权利要求15所述的方法,还包含:
撷取多个第二字符串,所述多个第二字符串不属于该第一分类;
以所述多个第二字符串产生第二待查询字符串;
对该第二待查询字符串使用该自动语汇推荐功能以取得至少一第二回传字符串;以及
依据该第二待查询字符串与该至少一第二回传字符串,撷取至少一第二特征数据;
其中于训练关于该第一分类的该验证模型的步骤中,还依据该至少一第二特征数据训练该验证模型。
17.根据权利要求15或16所述的方法,其中该至少一第一回传字符串为多个第一回传字符串,且该至少一第一特征数据包含有所述多个第一回传字符串与每一个该第一回传字符串的词频,且于训练关于该第一分类得该验证模型的步骤中,依据词频选择部分的所述多个第一回传字符串作为用于验证该第一分类的多个验证词组。
18.根据权利要求15或16所述的方法,其中于训练该验证模型的步骤中依据该至少一第一特征数据,以类神经网络、模糊逻辑、多层感知器、深度神经网络或支持向量机训练该验证模型。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW105142572A TWI645303B (zh) | 2016-12-21 | 2016-12-21 | 字串驗證方法、字串擴充方法與驗證模型訓練方法 |
TW105142572 | 2016-12-21 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108228682A true CN108228682A (zh) | 2018-06-29 |
CN108228682B CN108228682B (zh) | 2020-09-29 |
Family
ID=62562594
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611243457.0A Active CN108228682B (zh) | 2016-12-21 | 2016-12-29 | 字符串验证方法、字符串扩充方法与验证模型训练方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20180173694A1 (zh) |
CN (1) | CN108228682B (zh) |
TW (1) | TWI645303B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110502629A (zh) * | 2019-08-27 | 2019-11-26 | 桂林电子科技大学 | 一种基于lsh的过滤验证字符串相似性连接方法 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874467B (zh) * | 2017-02-15 | 2019-12-06 | 百度在线网络技术(北京)有限公司 | 用于提供搜索结果的方法和装置 |
US10896222B1 (en) * | 2017-06-28 | 2021-01-19 | Amazon Technologies, Inc. | Subject-specific data set for named entity resolution |
CN110532445A (zh) | 2019-04-26 | 2019-12-03 | 长佳智能股份有限公司 | 提供类神经网络训练模型的云端交易系统及其方法 |
KR102079970B1 (ko) * | 2019-04-30 | 2020-04-07 | (주)에스투더블유랩 | 지식 그래프를 이용하여 사이버 시큐리티를 제공하는 방법, 장치 및 컴퓨터 프로그램 |
CN111222335A (zh) * | 2019-11-27 | 2020-06-02 | 上海眼控科技股份有限公司 | 语料修正方法、装置、计算机设备和计算机可读存储介质 |
CN111506803B (zh) | 2020-03-17 | 2023-10-31 | 阿波罗智联(北京)科技有限公司 | 内容推荐方法、装置、电子设备及存储介质 |
CN111931509A (zh) * | 2020-08-28 | 2020-11-13 | 北京百度网讯科技有限公司 | 实体链指方法、装置、电子设备及存储介质 |
CN113010638B (zh) * | 2021-02-25 | 2024-02-09 | 北京金堤征信服务有限公司 | 实体识别模型生成方法及装置、实体提取方法及装置 |
CN112966513B (zh) * | 2021-03-05 | 2023-08-01 | 北京百度网讯科技有限公司 | 用于实体链接的方法和装置 |
CN114065741B (zh) * | 2021-11-16 | 2023-08-11 | 北京有竹居网络技术有限公司 | 用于验证表述的真实性的方法、设备、装置和介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130103696A1 (en) * | 2005-05-04 | 2013-04-25 | Google Inc. | Suggesting and Refining User Input Based on Original User Input |
US20140142922A1 (en) * | 2007-10-17 | 2014-05-22 | Evri, Inc. | Nlp-based entity recognition and disambiguation |
CN103177126B (zh) * | 2013-04-18 | 2015-07-29 | 中国科学院计算技术研究所 | 用于搜索引擎的色情用户查询识别方法及设备 |
CN104899304A (zh) * | 2015-06-12 | 2015-09-09 | 北京京东尚科信息技术有限公司 | 命名实体识别方法及装置 |
Family Cites Families (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7624099B2 (en) * | 2005-10-13 | 2009-11-24 | Microsoft Corporation | Client-server word-breaking framework |
US7970766B1 (en) * | 2007-07-23 | 2011-06-28 | Google Inc. | Entity type assignment |
US8000956B2 (en) * | 2008-02-08 | 2011-08-16 | Xerox Corporation | Semantic compatibility checking for automatic correction and discovery of named entities |
US8316296B2 (en) * | 2008-10-01 | 2012-11-20 | Microsoft Corporation | Phrase generation using part(s) of a suggested phrase |
EP2629211A1 (en) * | 2009-08-21 | 2013-08-21 | Mikko Kalervo Väänänen | Method and means for data searching and language translation |
US9009134B2 (en) * | 2010-03-16 | 2015-04-14 | Microsoft Technology Licensing, Llc | Named entity recognition in query |
US20110238491A1 (en) * | 2010-03-26 | 2011-09-29 | Microsoft Corporation | Suggesting keyword expansions for advertisement selection |
JP2012027845A (ja) * | 2010-07-27 | 2012-02-09 | Sony Corp | 情報処理装置、関連文提供方法、及びプログラム |
CA2747153A1 (en) * | 2011-07-19 | 2013-01-19 | Suleman Kaheer | Natural language processing dialog system for obtaining goods, services or information |
CN103020066B (zh) * | 2011-09-21 | 2016-09-07 | 北京百度网讯科技有限公司 | 一种识别搜索需求的方法和装置 |
CN103106220B (zh) * | 2011-11-15 | 2016-08-03 | 阿里巴巴集团控股有限公司 | 一种搜索方法、搜索装置及一种搜索引擎系统 |
US9613165B2 (en) * | 2012-11-13 | 2017-04-04 | Oracle International Corporation | Autocomplete searching with security filtering and ranking |
US9135330B2 (en) * | 2012-12-18 | 2015-09-15 | Ebay Inc. | Query expansion classifier for E-commerce |
US9268880B2 (en) * | 2013-03-14 | 2016-02-23 | Google Inc. | Using recent media consumption to select query suggestions |
US9298694B2 (en) * | 2013-04-11 | 2016-03-29 | International Business Machines Corporation | Generating a regular expression for entity extraction |
US20160041991A1 (en) * | 2013-05-20 | 2016-02-11 | Google Inc. | Systems, methods, and computer-readable media for providing query suggestions based on environmental contexts |
US9495420B2 (en) * | 2013-05-22 | 2016-11-15 | International Business Machines Corporation | Distributed feature collection and correlation engine |
US9230041B2 (en) * | 2013-12-02 | 2016-01-05 | Qbase, LLC | Search suggestions of related entities based on co-occurrence and/or fuzzy-score matching |
WO2015100362A1 (en) * | 2013-12-23 | 2015-07-02 | 24/7 Customer, Inc. | Systems and methods for facilitating dialogue mining |
US10325205B2 (en) * | 2014-06-09 | 2019-06-18 | Cognitive Scale, Inc. | Cognitive information processing system environment |
US20160203221A1 (en) * | 2014-09-12 | 2016-07-14 | Lithium Technologies, Inc. | System and apparatus for an application agnostic user search engine |
US9858262B2 (en) * | 2014-09-17 | 2018-01-02 | International Business Machines Corporation | Information handling system and computer program product for identifying verifiable statements in text |
US11017312B2 (en) * | 2014-12-17 | 2021-05-25 | International Business Machines Corporation | Expanding training questions through contextualizing feature search |
US20160196336A1 (en) * | 2015-01-02 | 2016-07-07 | International Business Machines Corporation | Cognitive Interactive Search Based on Personalized User Model and Context |
US20160196313A1 (en) * | 2015-01-02 | 2016-07-07 | International Business Machines Corporation | Personalized Question and Answer System Output Based on Personality Traits |
RU2626663C2 (ru) * | 2015-06-30 | 2017-07-31 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и сервер для создания предложений по завершению поисковых запросов |
US20170018268A1 (en) * | 2015-07-14 | 2017-01-19 | Nuance Communications, Inc. | Systems and methods for updating a language model based on user input |
US10380190B2 (en) * | 2015-11-18 | 2019-08-13 | International Business Machines Corporation | Optimized autocompletion of search field |
TWM523901U (zh) * | 2016-01-04 | 2016-06-11 | 信義房屋仲介股份有限公司 | 可語意分析關鍵字的搜尋引擎裝置 |
US10127274B2 (en) * | 2016-02-08 | 2018-11-13 | Taiger Spain Sl | System and method for querying questions and answers |
CN106227762B (zh) * | 2016-07-15 | 2019-06-28 | 苏群 | 一种基于用户协助的垂直搜索方法和系统 |
US10462545B2 (en) * | 2016-07-27 | 2019-10-29 | Amazon Technologies, Inc. | Voice activated electronic device |
US10296659B2 (en) * | 2016-09-26 | 2019-05-21 | International Business Machines Corporation | Search query intent |
US11373100B2 (en) * | 2016-11-29 | 2022-06-28 | Microsoft Technology Licensing, Llc | Using various artificial intelligence entities as advertising media |
US10558686B2 (en) * | 2016-12-05 | 2020-02-11 | Sap Se | Business intelligence system dataset navigation based on user interests clustering |
-
2016
- 2016-12-21 TW TW105142572A patent/TWI645303B/zh active
- 2016-12-29 CN CN201611243457.0A patent/CN108228682B/zh active Active
-
2017
- 2017-07-19 US US15/653,536 patent/US20180173694A1/en not_active Abandoned
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130103696A1 (en) * | 2005-05-04 | 2013-04-25 | Google Inc. | Suggesting and Refining User Input Based on Original User Input |
US20140142922A1 (en) * | 2007-10-17 | 2014-05-22 | Evri, Inc. | Nlp-based entity recognition and disambiguation |
CN103177126B (zh) * | 2013-04-18 | 2015-07-29 | 中国科学院计算技术研究所 | 用于搜索引擎的色情用户查询识别方法及设备 |
CN104899304A (zh) * | 2015-06-12 | 2015-09-09 | 北京京东尚科信息技术有限公司 | 命名实体识别方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110502629A (zh) * | 2019-08-27 | 2019-11-26 | 桂林电子科技大学 | 一种基于lsh的过滤验证字符串相似性连接方法 |
CN110502629B (zh) * | 2019-08-27 | 2020-09-11 | 桂林电子科技大学 | 一种基于lsh的过滤验证字符串相似性连接方法 |
Also Published As
Publication number | Publication date |
---|---|
US20180173694A1 (en) | 2018-06-21 |
CN108228682B (zh) | 2020-09-29 |
TW201824027A (zh) | 2018-07-01 |
TWI645303B (zh) | 2018-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108228682A (zh) | 字符串验证方法、字符串扩充方法与验证模型训练方法 | |
CN109033229B (zh) | 问答处理方法和装置 | |
Chang et al. | Semantic pooling for complex event analysis in untrimmed videos | |
US10127274B2 (en) | System and method for querying questions and answers | |
Clinchant et al. | Semantic combination of textual and visual information in multimedia retrieval | |
US7818314B2 (en) | Search fusion | |
US9218364B1 (en) | Monitoring an any-image labeling engine | |
Awad et al. | Trecvid semantic indexing of video: A 6-year retrospective | |
AU2018201624A1 (en) | Relevance-based image selection | |
US20080168070A1 (en) | Method and apparatus for classifying multimedia artifacts using ontology selection and semantic classification | |
CN102855317B (zh) | 一种基于演示视频的多模式索引方法及系统 | |
GB2395808A (en) | Information retrieval | |
CN104221017A (zh) | 使用示例来查找连接语料库中的数据 | |
EP3921745A1 (en) | Selective presentation of rich experiences in search | |
CN103699612B (zh) | 一种图像检索排序的方法及装置 | |
CN112052317A (zh) | 一种基于深度学习的医学知识库智能检索系统及其方法 | |
JP6420268B2 (ja) | 画像評価学習装置、画像評価装置、画像検索装置、画像評価学習方法、画像評価方法、画像検索方法、およびプログラム | |
CN110543484A (zh) | 提示词的推荐方法及装置、存储介质和处理器 | |
Wang et al. | Video interestingness prediction based on ranking model | |
CN104142955A (zh) | 一种推荐学习课程的方法和终端 | |
CN109657043B (zh) | 自动生成文章的方法、装置、设备及存储介质 | |
Ivanov et al. | Object-based tag propagation for semi-automatic annotation of images | |
CN112749328B (zh) | 搜索方法、装置和计算机设备 | |
US11354894B2 (en) | Automated content validation and inferential content annotation | |
US11410706B2 (en) | Content pushing method for display device, pushing device and display device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |