CN108228682A - 字符串验证方法、字符串扩充方法与验证模型训练方法 - Google Patents

字符串验证方法、字符串扩充方法与验证模型训练方法 Download PDF

Info

Publication number
CN108228682A
CN108228682A CN201611243457.0A CN201611243457A CN108228682A CN 108228682 A CN108228682 A CN 108228682A CN 201611243457 A CN201611243457 A CN 201611243457A CN 108228682 A CN108228682 A CN 108228682A
Authority
CN
China
Prior art keywords
character string
checked
classification
verification
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611243457.0A
Other languages
English (en)
Other versions
CN108228682B (zh
Inventor
刘昭宏
阙志克
郭志忠
李崇汉
洪健咏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial Technology Research Institute ITRI
Original Assignee
Industrial Technology Research Institute ITRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial Technology Research Institute ITRI filed Critical Industrial Technology Research Institute ITRI
Publication of CN108228682A publication Critical patent/CN108228682A/zh
Application granted granted Critical
Publication of CN108228682B publication Critical patent/CN108228682B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Abstract

本发明提供了一种字符串验证方法、字符串扩充方法与验证模型训练方法,其中字符串验证方法包含下列步骤:撷取一个待验名称字符串。依据前述待验名称字符串产生一个待查询字符串。对前述待查询字符串使用自动语汇推荐功能以取得至少一个回传字符串。从前述至少一个回传字符串中撷取至少一笔特征数据。依据前述至少一笔特征数据与一个验证模型判断前述待验名称字符串的分类。

Description

字符串验证方法、字符串扩充方法与验证模型训练方法
技术领域
本发明关于一种字符串验证方法、字符串扩充方法与验证模型训练方法。
背景技术
在以人工智能作文字分析处理的领域中,机器学习仰赖大量的训练文本。而文本内的字符串对应的意义也是机器所需要学习的基础知识。字符串往往有其分类,例如“恶魔四伏”指涉的是一部007系列的电影,而“恶魔高校”指涉的是一部小说。于这样的例子中,恶魔四伏与恶魔高校这样的字符串可分别被视为电影及小说此二类命名实体(NamedEntity)。具体来说,这样的字符串实际对应到一个特定的人、事、物等,并且属于各个不同的命名实体类型。
传统的命名实体辨识需仰赖训练文本的事前人工标记建构,而且命名实体的类型也需事先加以定义。因此若无此类已经标记好的文本,便无法进行命名实体的辨识工作。实际在应用上,若使用者仅提供一些词组、字符串或部分短句等就要做命名实体辨识的工作,在传统方法必须要有文本的前提下,很难加以应用。并且,传统的辨识方法只能根据前后文的特征来辨识出命名实体,但这些前后文特征为语言相依的,无法处理多种语言混杂的情形。现有具备命名实体辨识功能的产品大多都有地域性限制,不同地区因语系差异,无法一体适用,必须个别量身订做,且发展时程长,且对新类型的命名实体的辨识无法迅速因应,业务推展受到局限。
发明内容
综上所述,本发明旨在提供一种命名实体字符串的验证方法、扩充方法与验证模型的训练方法,以使得命名实体的辨识能自动化。
依据本发明一实施例的字符串验证方法,包含下列步骤:撷取一个待验名称字符串、依据前述待验名称字符串产生一个待查询字符串、对前述待查询字符串使用自动语汇推荐功能以取得至少一个回传字符串、从前述至少一个回传字符串中撷取至少一笔特征数据,依据前述至少一笔特征数据与验证模型判断前述待验名称字符串的分类。
依据本发明一实施例的字符串扩充方法,包含:从字符串库中的多个字符串中产生一个待查询字符串。对前述待查询字符串使用自动语汇推荐功能以取得至少一个回传字符串。分析前述回传字符串以扩充字符串库。
依据本发明一实施例的验证模型训练方法,包含:撷取属于第一分类的多个第一字符串。以前述多个第一字符串产生一个第一待查询字符串。对前述第一待查询字符串使用自动语汇推荐功能以取得至少一个第一回传字符串。依据前述第一待查询字符串与前述第一回传字符串,撷取用于验证第一分类的至少一笔第一特征数据。依据前述至少一笔第一特征数据,训练关于第一分类的验证模型。
综上所述,本发明提供的字符串验证方法、字符串扩充方法与验证模型训练方法,通过使用具备自动语汇推荐功能的系统,获取多数人使用来检索、搜寻的字符串等以作为字符串分类判断的基准。因此,字符串的分类与扩充得以自动化地进行。
附图说明
图1为用以实现本发明的方法的系统架构图。
图2为依据本发明一实施例的方法流程图。
图3为依据本发明一实施例的字符串扩充方法流程图。
图4为依据本发明一实施例的字符串扩充系统功能方块图。
图5为依据本发明一实施例的验证模型建立方法流程图。
附图标记说明
1000 字符串验证系统
1100、4100 输入模块
1110、4110 语言辨识单元
1120、4120 地区辨识单元
1200、4200 查询字符串组合模块
1300 特征数据撷取模块
1400 类型验证计算模块
1600 验证词组产生模块
1700 验证模型训练模块
2000 验证模型
3000 搜索引擎
4000 字符串扩充系统
4300 候选名称字符串撷取模块
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
请参照图1与图2,其中图1为用以实现本发明的方法的系统架构图,而图2为依据本发明一实施例的方法流程图。如图1所示,本发明一实施例的系统包含字符串验证系统1000与验证模型2000。于一实施例中,前述系统运行于一个服务器上的软件函式,而前述验证模型系储存于服务器的储存媒介中。如图2所示,当字符串验证系统1000运行时,首先执行步骤S210,字符串验证系统1000的输入模块1100撷取一个待验名称字符串。于一种实施态样中,待验名称字符串可以是用户想要查询并输入至系统的一个字符串。于另一实施态样中,待验名称字符串是系统执行机器学习时,从一篇文章中辨识出来的一个非连接词字符串。当从文章辨识待查询字符串时,于一实施例中使用TF-IDF(Term Frequency-InverseDocument Frequency)方法来抓取待验名称字符串。
于一实施例中,如图1所示,输入模块1100具有语言辨识单元1110,因此,所撷取到的待验名称字符串的语言就会被语言辨识单元1110所辨识。举例来说,输入模块1100从一篇德文文章中撷取到字符串“die”的时候,该字符串会被辨识为德文。并且因为“die”在德文中用作冠词使用,因此最终不会被选择为待验名称字符串。另一方面,如果输入模块1100是从一篇英文文章中撷取到字符串“die”的时候,则该字符串被辨识为英文,且因为“die”在英文中的意义是死亡,因此输入模块1100有机会将字符串“die”撷取为待验名称字符串或待验名称字符串的一部分。
于另一实施例中,输入模块1100得具有地区辨识单元1120。因此若是在台湾的用户输入待验名称字符串“恶魔岛”的时候,待验名称字符串“恶魔岛”的地区会被设定为台湾。反之,若是在加州的用户输入待验名称字符串“恶魔岛”的时候,待验名称字符串“恶魔岛”的地区会被设定为加州。于后面的实施例中介绍其作用。
接着执行步骤S220,字符串验证系统1000的查询字符串组合模块1200将待验名称字符串设定为待查询字符串。于一实施例中,待验名称字符串“美国队长”中的元素有“美国”、“队长”、“美国队”与“美国队长”。而待验名称字符串“托斯卡尼艳阳下”中的元素有“托斯卡尼”、“艳阳”、“艳阳下”与“托斯卡尼艳阳下”。因此查询字符串组合模块1200于一实施例中可直接将待验名称字符串“美国队长”设定为待查询字符串。于另一实施例中,查询字符串组合模块1200可以用“美国”作为待查询字符串。于再一实施例中,如果输入模块1100同时有撷取到待验名称字符串“美国队长”对应的一个待验分类“电影”。则查询字符串组合模块1200以待验名称字符串“美国队长”与待验分类“电影”所对应的伴随字符串“线上看”来产生待查询字符串“美国队长线上看”。于另一些实施例中,在产生待查询字符串的时候,也可以在待验名称字符串“美国队长”后加入空格符、数字、空格符加数字等,来产生“美国队长”、“美国队长2”、“美国队长3”等待查询字符串。本发明并不限制产生待查询字符串的方法如上。于此,伴随字符串是可能与待验名称字符串有关联的字符串,被用来辅助字符串的验证。
接着如步骤S230,字符串验证系统1000的特征数据撷取模块1300对待查询字符串使用自动语汇推荐功能以取得回传字符串。所谓的自动语汇推荐功能一般或称为关联词提示或相关查询词建议。于此所指涉的自动语汇推荐功能(Automatic Term Suggestion)也可以是自动完成功能(Auto-Complete)或具有类似作动的服务。也就是当一个字符串被输入具有所述功能的系统时,会对应产生基于(包含)这个输入的字符串而产生的一个或多个字符串。举例来说,特征数据撷取模块1300将待查询字符串填入具有自动语汇推荐功能或是自动完成功能的搜索引擎3000或是检索数据库。例如将待查询字符串“托斯卡尼艳阳下”填入网络搜索引擎所提供的自动完成(Auto-Complete)服务系统中(例如谷歌搜索引擎),则能得到回传字符串为“托斯卡尼艳阳下线上看”、“托斯卡尼艳阳下台词”、“托斯卡尼艳阳下书”、“托斯卡尼艳阳下景点”与“托斯卡尼艳阳下下载”。如步骤S240,特征数据撷取模块1300从回传字符串撷取特征数据。举例来说,前述的例子中,特征数据撷取模块1300得以撷取到特征数据“台词”、“线上看”、“书”、“景点”与“下载”。实际上,并非每次都能撷取导多笔特征数据,因此于一些实施例中,即使撷取到一笔特征数据,也能继续后续的步骤。
接着在步骤S250中,字符串验证系统1000的类型验证计算模块1400依据撷取到的特征数据与验证模型2000来判断待验名称字符串的分类。于一实施例中,步骤S250具有下列步骤:依据撷取到的特征数据,计算对应的特征值。并依据特征值与验证模型2000,判断待验名称字符串的分类。于一实施例中,在计算特征值时,依据验证模型中其中一个分类对应的多个验证词组,判断待查询字符串对应的一个或多个特征数据是否对应前述分类的验证词组。所谓的验证词组,就是验证模型2000中,用于验证一个待验字符串是否属于某个分类的一个或多个字(词)组合。通常是由关于该分类的关联词组中选择出来的,其方法于后续段落中讨论。而关联词组就是将该分类所对应的词组送至具有自动语汇推荐功能的系统/服务时,所获得的回传字符串中所撷取的多个特征数据的部分(例如一个或两个特征数据)或全部的特征数据。具体来说,一个分类的验证词组是此分类的关联词组的子集合。而关联词组为分析所撷取的特征数据而得到的。而于一个实施例中,前述的伴随字符串可以是选自待验分类的关联词组。关于分析特征数据得到关联词组的实作方式于后续实施例解释。
并依据前述多个判断结果,产生特征向量作为特征值。举例来说,如果验证模型2000中,电影分类的验证词组有“电影”、“影评”、“演员”、“台词”、“场景”、“奥斯卡”、“票房”与“线上看”等等,则前述关于“托斯卡尼艳阳下”的特征数据符合了线上看、电影、台词。因此托斯卡尼艳阳下的特征向量可以被定义为[线上看,电影,台词]。依照这样的特征向量以及验证模型2000,类型验证计算模块1400可以判断托斯卡尼艳阳下是否该被分类为电影。于一实施例中,验证模型2000具有三个分类:餐厅、电影与歌曲。每个分类各具有15个验证词组,其中在每个分类选取验证词组时,选择该分类中的字符串被填入搜索引擎3000时,回传的字符串中出现次数(词频)最高的15个特征数据作为验证词组。由于有些验证词组同时对应于两个或三个分类,因此三个分类总计有38个验证词组。类型验证计算模块1400将这38个验证词组作为基底。于一实施例中,类型验证计算模块1400将待查询字符串“托斯卡尼艳阳下”的特征向量扩充为38维的特征向量,并且每个分类自己的特征向量也是38维的特征向量。类型验证计算模块1400将待查询字符串的特征向量分别与三个分类的特征向量以深度神经网络(Deep Neuron Network,DNN)或是支持向量机(Support Vector Machine,SVM)或是多层感知器(Multilayer Perceptron,MLP)进行估算,从而得到三个判断结果,也就是判断“托斯卡尼艳阳下”是否属于餐厅类型、电影类型或歌曲类型。
于一实施例中,类型验证计算模块1400并非以特征向量以及类神经网络等人工智能的方式来进行分类验证。相对地类型验证计算模块1400从验证模型2000选择一个分类,所选择的分类对应的多个关联词组中部分被选为验证词组。举例来说,在比对餐厅分类时,关联词组为“菜单”、“食记”、“餐厅”、“价位”、“台北”、“推荐”、“台中”、“分店”等等。于一实施例中,前述关联词组中,词频较高的几个关联词组“菜单”、“食记”、“餐厅”、“价位”与“分店”作为餐厅分类的验证词组。而托斯卡尼艳阳下对应的特征数据比对餐厅分类的多个验证词组的结果是全部不符合。反之托斯卡尼艳阳下的特征数据在比对电影分类的多个验证词组的结果是有三个符合。因此类型验证计算模块1400把托斯卡尼艳阳下分类为电影而非餐厅。
于一实施例中,待验名称字符串例如“恶魔岛”在不同的地区有不同的意涵。举例来说,在台湾,恶魔岛是一间餐厅的名称,在加州,恶魔岛是一个旅游景点。因此,如同前述地,当输入模块1100的地区辨识单元1120撷取到用户是在台湾,或是地区辨识单元1120判断系统当前处理的文件所讨论的环境是在台湾,则查询字符串组合模块1200所产生的查询字符串例如为“台湾恶魔岛”或是“恶魔岛台湾”。如此,回传字符串会被限制而不会关联于加州的恶魔岛。又或者特征数据撷取模块1300在对待查询字符串“恶魔岛”使用自动语汇推荐功能的时候,限定回传字符串关联的地区是台湾。类似地,输入模块1100的语言辨识单元1110如果判断所撷取的待验名称字符串的语言是英文,则在使用自动语汇推荐功能时,特征数据撷取模块1300得以限制回传字符串的语言是英文,如此可以避免回传字符串中带有太多非目标地区/语言的干扰数据。
此外,于本发明一实施例中,还揭示了一种字符串扩充方法。具体来说,随着人们使用语言沟通,所用到的语汇(字符串)必然不再只限于辞典中的字符串。举例来说,辞典中就不会有“九十后”、“淡定红茶”或是“蓝瘦香菇”这样的字符串。因此本发明还提供了一种应用前述字符串验证系统1000来扩充辞典的字符串数量的方法。请参照图3与图4,其中图3为依据本发明一实施例的字符串扩充方法流程图,而图4为依据本发明一实施例的字符串扩充系统功能方块图。其中图4的字符串扩充系统4000具有输入模块4100、查询字符串组合模块4200与候选名称字符串撷取模块4300。其中输入模块4100与查询字符串组合模块4200的功能与前述字符串验证系统1000的输入模块1100与查询字符串组合模块1200相同。如图3所示,于步骤S310中,输入模块4100从字符串库的多个字符串中产生一个待查询字符串。同样的于一实施例中,输入模块4100的语言辨识单元4110与地区辨识单元4120也能辨识字符串库的语言/地区。而如步骤S330所示,候选名称字符串撷取模块4300对待查询字符串使用自动语汇推荐功能或是自动完成功能(例如使用具此类功能的搜索引擎3000)以取得对应的回传字符串。再如步骤S340,候选名称字符串撷取模块4300分析回传字符串,取得其中除了待查询字符串以外的部分为候选名称字符串。并且比较候选名称字符串与字符串库的字符串来判断候选名称字符串是否已属于字符串库的所述多个字符串其中之一。当候选名称字符串不同于字符串库中所有的字符串,则候选名称字符串撷取模块4300将候选名称字符串新增进字符串库来扩充字符串库中的字符串数量。在一种实作方式中,会限制待查询字符串中包含第一字符串的数量的上限。举例来说,待查询字符串中的字符串数上限被设定为3,则待查询字符串中最多由三个第一字符串所构成。于另一种实作方式中,当字符串数上限被设定为3,则待查询字符串就是由三个第一字符串所构成。于一实施例中,此处的第一字符串可以是一个英文字(word)或是一个中文字。然而,于其他实施例中,第一字符串也可以是辞典中的一个词,例如“今日”。于再一些实施例中,当字符串数上限被设定为3,表示字符串中的单字总数限定为3,因此所产生的待查询字符串就会是三字词。此处的待查询字符串例如直接选用三字词如“幸运草”、“千里马”等,或是选用二字词与一字词构成的字符串,例如由“线上”与“看”构成的“线上看”。因此,即使辞典中原来没有“线上看”这样的词组,经由上述流程后能够将“线上看”作为待查询字符串,进而取得与线上看有关的回传字符串。
于另一实施例中,假设所选取的第一字符串属于电影类别,因此在用第一字符串组成待查询字符串时,还可以选择关联于所选取的第一字符串的伴随字符串。举例来说,当所选取的第一字符串例如为“超人”与“蝙蝠侠”的时候,伴随字符串例如可以是电影类别的验证词组“线上看”、“影评”、“演员”等等。因此产生的待查询字符串例如为“超人蝙蝠侠线上看”,而收到的回传字符串中包含有“正义黎明”、“蝙蝠侠大战超人”,且这些回传字符串并不存在于原本对应该类别的字符串库中。因此可以新增字符串“正义黎明”与“蝙蝠侠大战超人”。由上述多个实施例可知,将前述的各模块撰写为计算机程序,并由计算机执行,则字符串库中命名实体字符串的数量可以自动地被扩充。
于一实施例中,本发明还揭示了一种使用前述字符串验证系统1000来建立验证模型2000的方法。请参照图5,其为依据本发明一实施例的验证模型建立方法流程图。如图5所示,首先如步骤S410,输入模块1100撷取多个第一字符串,第一字符串均属于第一分类。举例来说,从辞典或数据库中撷取1000部电影名称。也就是所撷取的1000个第一字符串(电影名称)的类别都是电影。接着如步骤S420所示,查询字符串组合模块1200以所选择的多个第一字符串来产生第一待查询字符串。具体来说,例如直接以电影名称作为第一待查询字符串,或是在电影名称后面加入空格符,或是在电影名称后面加入数字来产生第一待查询字符串。并且如步骤S430所示,特征数据撷取模块1300对第一待查询字符串使用自动语汇推荐功能来取得一个或多个第一回传字符串。再如步骤S440所示,特征数据撷取模块1300依据第一待查询字符串与第一回传字符串,来撷取用于验证第一分类的第一特征数据。具体来说,就是前述的对应于第一分类(电影)的关联词组。于一实施例中,接着如步骤S450所示,字符串验证系统1000的验证词组产生模块1600从得到的多个关联词组中,选择词频较高的关联词组来得到用来验证第一分类的验证词组,以建立关于第一分类的验证模型2000。此处,验证词组产生模块1600可以使用TF-IDF(Term Frequency-Inverse DocumentFrequency)方法来特征数据中过滤出多个关联词组,并从关联词组中过滤出词频较高又有意义的验证词组。
于另一实施例中,在步骤S440后,如步骤S460所示,字符串验证系统1000的验证模型训练模块1700依照前述得到的多个关联词组,以深度神经网络、支持向量机、模糊逻辑、类神经网络、多层感知器或是其他人工智能的方法来建立/训练关于第一分类的验证模型2000。
于另一实施例中,除了撷取属于第一分类(电影)的1000个字符串以外,输入模块1100还撷取多个第二字符串,而这些第二字符串不属于第一分类。并且查询字符串组合模块1200以这些第二字符串来产生第二待查询字符串。而特征数据撷取模块1300对第二待查询字符串使用自动语汇推荐功能则能取得第二回传字符串。同样的,特征数据撷取模块1300得以从第二回传字符串中取得第二特征数据(第二关联词组)。这些第二特征数据都是非相关于第一类别(电影类别)的,因此于一实施例中,验证词组产生模块1600得以利用这些第二特征数据,来更精确的从关于第一类别的关联词组中过滤出验证词组。于另一实施例中,这些第二特征数据也能被验证模型训练模块1700用来训练验证模型2000。于此实施例中,仅需输入足量的数据,并将上述图5的流程以程序由计算机执行,即能自动地训练出验证模型。
综上所述,依据本发明的实施例,字符串验证系统得以自动的判别待验名称字符串的地区、语言,并且自动地验证其类型。此外,于本发明另一实施例中,验证模型得以自动地被训练。于本发明再一实施例中,字符串库中的字符串数量得以自动地扩充最新的命名实体字符串。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (18)

1.一种字符串验证方法,其特征在于,包含:
撷取待验名称字符串;
依据该待验名称字符串产生待查询字符串;
对该待查询字符串使用自动语汇推荐功能以取得至少一回传字符串;
从该至少一回传字符串中撷取至少一特征数据;以及
依据该至少一特征数据与验证模型判断该待验名称字符串的分类。
2.根据权利要求1所述的方法,其中于撷取该待验名称字符串时,更包含撷取关联于该待验名称字符串的语言或地区,并且于产生该待查询字符串的步骤还依据该语言或该地区产生该待查询字符串。
3.根据权利要求2所述的方法,其中于从该至少一回传字符串中撷取该至少一特征数据的步骤是依据该语言或该地区。
4.根据权利要求1所述的方法,其中于依据该至少一特征数据与该验证模型判断该待验名称字符串的分类步骤中包含:
依据该至少一特征数据计算特征值;以及
依据该特征值与该验证模型,判断该待验名称字符串的分类。
5.根据权利要求4所述的方法,其中于依据该至少一特征数据计算该特征值的步骤中,包含:
依据该验证模型中一分类的多个验证词组,判断该至少一特征数据是否对应所述多个验证词组;以及
依据前述多个判断结果,产生特征向量作为该特征值。
6.根据权利要求4所述的方法,其中该特征值包含该至少一特征数据,且于依据该特征值与该验证模型判断该待验名称字符串的分类的步骤中包含:
从该验证模型中选择第一分类,该第一分类对应于至少一验证词组;以及
判断该至少一特征数据是否对应该至少一验证词组,以判断该待验名称字符串是否属于该第一分类。
7.根据权利要求4所述的方法,其中于依据该至少一特征数据计算该特征值的步骤中,包含以该至少一特征数据产生特征向量,且于依据该特征值与该验证模型,判断该待验名称字符串的分类的步骤中,依据该特征向量与该验证模型以判断该待验名称字符串的分类。
8.根据权利要求1所述的方法,其中于撷取该待验名称字符串的步骤中,还撷取分类,且于判断该待验名称字符串的分类的步骤中为判断该待验名称字符串是否属于该分类。
9.根据权利要求8所述的方法,其中于产生该待查询字符串的步骤中还依据关于该分类的至少一伴随字符串产生该待查询字符串。
10.一种字符串扩充方法,其特征在于,包含:
从字符串库中的多个字符串产生待查询字符串;
对该待查询字符串使用自动语汇推荐功能以取得至少一回传字符串;以及
分析该至少一回传字符串以扩充该字符串库。
11.根据权利要求10所述的方法,还包含取得字符串数上限,并且于产生该待查询字符串的步骤中,包含:
从该字符串库的所述多个字符串选择N个第一字符串,其中N为小于等于该字符串数上限的正整数;以及
依据该N个被选择的第一字符串产生该待查询字符串。
12.根据权利要求10所述的方法,其中于分析该至少一回传字符串以扩充该字符串库的步骤中包含:
比对该至少一回传字符串其中之一与该字符串库的所述多个字符串;以及
当所比对的该回传字符串不属于该字符串库的所述多个字符串时,以所比对的该回传字符串扩充该字符串库的所述多个字符串。
13.根据权利要求10所述的方法,其中于撷取所述多个第一字符串时,还撷取关于每一个该第一字符串的地区或语言,且于产生该待查询字符串的步骤中,还依据该地区或该语言产生该待查询字符串。
14.根据权利要求10所述的方法,其中于产生该待查询字符串的步骤中,包含:
从该字符串库的所述多个字符串中选择属于第一分类的多个第一字符串;
选择部分所述多个第一字符串;
选择关联于该第一分类的至少一伴随字符串;以及
依据被选择的部分所述多个第一字符串与该至少一伴随字符串以得到该待查询字符串。
15.一种验证模型训练方法,其特征在于,包含:
撷取多个第一字符串,所述多个第一字符串属于第一分类;
以所述多个第一字符串产生第一待查询字符串;
对该第一待查询字符串使用自动语汇推荐功能以取得至少一第一回传字符串;
依据该第一待查询字符串与该至少一第一回传字符串,撷取用于验证该第一分类的至少一第一特征数据;以及
依据该至少一第一特征数据,训练关于该第一分类的验证模型。
16.根据权利要求15所述的方法,还包含:
撷取多个第二字符串,所述多个第二字符串不属于该第一分类;
以所述多个第二字符串产生第二待查询字符串;
对该第二待查询字符串使用该自动语汇推荐功能以取得至少一第二回传字符串;以及
依据该第二待查询字符串与该至少一第二回传字符串,撷取至少一第二特征数据;
其中于训练关于该第一分类的该验证模型的步骤中,还依据该至少一第二特征数据训练该验证模型。
17.根据权利要求15或16所述的方法,其中该至少一第一回传字符串为多个第一回传字符串,且该至少一第一特征数据包含有所述多个第一回传字符串与每一个该第一回传字符串的词频,且于训练关于该第一分类得该验证模型的步骤中,依据词频选择部分的所述多个第一回传字符串作为用于验证该第一分类的多个验证词组。
18.根据权利要求15或16所述的方法,其中于训练该验证模型的步骤中依据该至少一第一特征数据,以类神经网络、模糊逻辑、多层感知器、深度神经网络或支持向量机训练该验证模型。
CN201611243457.0A 2016-12-21 2016-12-29 字符串验证方法、字符串扩充方法与验证模型训练方法 Active CN108228682B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW105142572A TWI645303B (zh) 2016-12-21 2016-12-21 字串驗證方法、字串擴充方法與驗證模型訓練方法
TW105142572 2016-12-21

Publications (2)

Publication Number Publication Date
CN108228682A true CN108228682A (zh) 2018-06-29
CN108228682B CN108228682B (zh) 2020-09-29

Family

ID=62562594

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611243457.0A Active CN108228682B (zh) 2016-12-21 2016-12-29 字符串验证方法、字符串扩充方法与验证模型训练方法

Country Status (3)

Country Link
US (1) US20180173694A1 (zh)
CN (1) CN108228682B (zh)
TW (1) TWI645303B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110502629A (zh) * 2019-08-27 2019-11-26 桂林电子科技大学 一种基于lsh的过滤验证字符串相似性连接方法

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874467B (zh) * 2017-02-15 2019-12-06 百度在线网络技术(北京)有限公司 用于提供搜索结果的方法和装置
US10896222B1 (en) * 2017-06-28 2021-01-19 Amazon Technologies, Inc. Subject-specific data set for named entity resolution
CN110532445A (zh) 2019-04-26 2019-12-03 长佳智能股份有限公司 提供类神经网络训练模型的云端交易系统及其方法
KR102079970B1 (ko) * 2019-04-30 2020-04-07 (주)에스투더블유랩 지식 그래프를 이용하여 사이버 시큐리티를 제공하는 방법, 장치 및 컴퓨터 프로그램
CN111222335A (zh) * 2019-11-27 2020-06-02 上海眼控科技股份有限公司 语料修正方法、装置、计算机设备和计算机可读存储介质
CN111506803B (zh) 2020-03-17 2023-10-31 阿波罗智联(北京)科技有限公司 内容推荐方法、装置、电子设备及存储介质
CN111931509A (zh) * 2020-08-28 2020-11-13 北京百度网讯科技有限公司 实体链指方法、装置、电子设备及存储介质
CN113010638B (zh) * 2021-02-25 2024-02-09 北京金堤征信服务有限公司 实体识别模型生成方法及装置、实体提取方法及装置
CN112966513B (zh) * 2021-03-05 2023-08-01 北京百度网讯科技有限公司 用于实体链接的方法和装置
CN114065741B (zh) * 2021-11-16 2023-08-11 北京有竹居网络技术有限公司 用于验证表述的真实性的方法、设备、装置和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130103696A1 (en) * 2005-05-04 2013-04-25 Google Inc. Suggesting and Refining User Input Based on Original User Input
US20140142922A1 (en) * 2007-10-17 2014-05-22 Evri, Inc. Nlp-based entity recognition and disambiguation
CN103177126B (zh) * 2013-04-18 2015-07-29 中国科学院计算技术研究所 用于搜索引擎的色情用户查询识别方法及设备
CN104899304A (zh) * 2015-06-12 2015-09-09 北京京东尚科信息技术有限公司 命名实体识别方法及装置

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7624099B2 (en) * 2005-10-13 2009-11-24 Microsoft Corporation Client-server word-breaking framework
US7970766B1 (en) * 2007-07-23 2011-06-28 Google Inc. Entity type assignment
US8000956B2 (en) * 2008-02-08 2011-08-16 Xerox Corporation Semantic compatibility checking for automatic correction and discovery of named entities
US8316296B2 (en) * 2008-10-01 2012-11-20 Microsoft Corporation Phrase generation using part(s) of a suggested phrase
EP2629211A1 (en) * 2009-08-21 2013-08-21 Mikko Kalervo Väänänen Method and means for data searching and language translation
US9009134B2 (en) * 2010-03-16 2015-04-14 Microsoft Technology Licensing, Llc Named entity recognition in query
US20110238491A1 (en) * 2010-03-26 2011-09-29 Microsoft Corporation Suggesting keyword expansions for advertisement selection
JP2012027845A (ja) * 2010-07-27 2012-02-09 Sony Corp 情報処理装置、関連文提供方法、及びプログラム
CA2747153A1 (en) * 2011-07-19 2013-01-19 Suleman Kaheer Natural language processing dialog system for obtaining goods, services or information
CN103020066B (zh) * 2011-09-21 2016-09-07 北京百度网讯科技有限公司 一种识别搜索需求的方法和装置
CN103106220B (zh) * 2011-11-15 2016-08-03 阿里巴巴集团控股有限公司 一种搜索方法、搜索装置及一种搜索引擎系统
US9613165B2 (en) * 2012-11-13 2017-04-04 Oracle International Corporation Autocomplete searching with security filtering and ranking
US9135330B2 (en) * 2012-12-18 2015-09-15 Ebay Inc. Query expansion classifier for E-commerce
US9268880B2 (en) * 2013-03-14 2016-02-23 Google Inc. Using recent media consumption to select query suggestions
US9298694B2 (en) * 2013-04-11 2016-03-29 International Business Machines Corporation Generating a regular expression for entity extraction
US20160041991A1 (en) * 2013-05-20 2016-02-11 Google Inc. Systems, methods, and computer-readable media for providing query suggestions based on environmental contexts
US9495420B2 (en) * 2013-05-22 2016-11-15 International Business Machines Corporation Distributed feature collection and correlation engine
US9230041B2 (en) * 2013-12-02 2016-01-05 Qbase, LLC Search suggestions of related entities based on co-occurrence and/or fuzzy-score matching
WO2015100362A1 (en) * 2013-12-23 2015-07-02 24/7 Customer, Inc. Systems and methods for facilitating dialogue mining
US10325205B2 (en) * 2014-06-09 2019-06-18 Cognitive Scale, Inc. Cognitive information processing system environment
US20160203221A1 (en) * 2014-09-12 2016-07-14 Lithium Technologies, Inc. System and apparatus for an application agnostic user search engine
US9858262B2 (en) * 2014-09-17 2018-01-02 International Business Machines Corporation Information handling system and computer program product for identifying verifiable statements in text
US11017312B2 (en) * 2014-12-17 2021-05-25 International Business Machines Corporation Expanding training questions through contextualizing feature search
US20160196336A1 (en) * 2015-01-02 2016-07-07 International Business Machines Corporation Cognitive Interactive Search Based on Personalized User Model and Context
US20160196313A1 (en) * 2015-01-02 2016-07-07 International Business Machines Corporation Personalized Question and Answer System Output Based on Personality Traits
RU2626663C2 (ru) * 2015-06-30 2017-07-31 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер для создания предложений по завершению поисковых запросов
US20170018268A1 (en) * 2015-07-14 2017-01-19 Nuance Communications, Inc. Systems and methods for updating a language model based on user input
US10380190B2 (en) * 2015-11-18 2019-08-13 International Business Machines Corporation Optimized autocompletion of search field
TWM523901U (zh) * 2016-01-04 2016-06-11 信義房屋仲介股份有限公司 可語意分析關鍵字的搜尋引擎裝置
US10127274B2 (en) * 2016-02-08 2018-11-13 Taiger Spain Sl System and method for querying questions and answers
CN106227762B (zh) * 2016-07-15 2019-06-28 苏群 一种基于用户协助的垂直搜索方法和系统
US10462545B2 (en) * 2016-07-27 2019-10-29 Amazon Technologies, Inc. Voice activated electronic device
US10296659B2 (en) * 2016-09-26 2019-05-21 International Business Machines Corporation Search query intent
US11373100B2 (en) * 2016-11-29 2022-06-28 Microsoft Technology Licensing, Llc Using various artificial intelligence entities as advertising media
US10558686B2 (en) * 2016-12-05 2020-02-11 Sap Se Business intelligence system dataset navigation based on user interests clustering

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130103696A1 (en) * 2005-05-04 2013-04-25 Google Inc. Suggesting and Refining User Input Based on Original User Input
US20140142922A1 (en) * 2007-10-17 2014-05-22 Evri, Inc. Nlp-based entity recognition and disambiguation
CN103177126B (zh) * 2013-04-18 2015-07-29 中国科学院计算技术研究所 用于搜索引擎的色情用户查询识别方法及设备
CN104899304A (zh) * 2015-06-12 2015-09-09 北京京东尚科信息技术有限公司 命名实体识别方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110502629A (zh) * 2019-08-27 2019-11-26 桂林电子科技大学 一种基于lsh的过滤验证字符串相似性连接方法
CN110502629B (zh) * 2019-08-27 2020-09-11 桂林电子科技大学 一种基于lsh的过滤验证字符串相似性连接方法

Also Published As

Publication number Publication date
US20180173694A1 (en) 2018-06-21
CN108228682B (zh) 2020-09-29
TW201824027A (zh) 2018-07-01
TWI645303B (zh) 2018-12-21

Similar Documents

Publication Publication Date Title
CN108228682A (zh) 字符串验证方法、字符串扩充方法与验证模型训练方法
CN109033229B (zh) 问答处理方法和装置
Chang et al. Semantic pooling for complex event analysis in untrimmed videos
US10127274B2 (en) System and method for querying questions and answers
Clinchant et al. Semantic combination of textual and visual information in multimedia retrieval
US7818314B2 (en) Search fusion
US9218364B1 (en) Monitoring an any-image labeling engine
Awad et al. Trecvid semantic indexing of video: A 6-year retrospective
AU2018201624A1 (en) Relevance-based image selection
US20080168070A1 (en) Method and apparatus for classifying multimedia artifacts using ontology selection and semantic classification
CN102855317B (zh) 一种基于演示视频的多模式索引方法及系统
GB2395808A (en) Information retrieval
CN104221017A (zh) 使用示例来查找连接语料库中的数据
EP3921745A1 (en) Selective presentation of rich experiences in search
CN103699612B (zh) 一种图像检索排序的方法及装置
CN112052317A (zh) 一种基于深度学习的医学知识库智能检索系统及其方法
JP6420268B2 (ja) 画像評価学習装置、画像評価装置、画像検索装置、画像評価学習方法、画像評価方法、画像検索方法、およびプログラム
CN110543484A (zh) 提示词的推荐方法及装置、存储介质和处理器
Wang et al. Video interestingness prediction based on ranking model
CN104142955A (zh) 一种推荐学习课程的方法和终端
CN109657043B (zh) 自动生成文章的方法、装置、设备及存储介质
Ivanov et al. Object-based tag propagation for semi-automatic annotation of images
CN112749328B (zh) 搜索方法、装置和计算机设备
US11354894B2 (en) Automated content validation and inferential content annotation
US11410706B2 (en) Content pushing method for display device, pushing device and display device

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant