CN110516140A - 一种信息处理方法、设备及计算机存储介质 - Google Patents
一种信息处理方法、设备及计算机存储介质 Download PDFInfo
- Publication number
- CN110516140A CN110516140A CN201910754073.2A CN201910754073A CN110516140A CN 110516140 A CN110516140 A CN 110516140A CN 201910754073 A CN201910754073 A CN 201910754073A CN 110516140 A CN110516140 A CN 110516140A
- Authority
- CN
- China
- Prior art keywords
- yellow page
- title
- page title
- enquiry number
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种信息处理方法、设备及计算机存储介质,所述方法包括:获取查询号码的原始信息;根据所述查询号码的原始信息获取对应于所述查询号码的多个原始黄页名称;对所述多个原始黄页名称进行特征筛选,得到对应于所述查询号码的目标黄页名称。本发明实施例提供的信息处理方法、设备及计算机存储介质,通过根据查询号码的原始信息确定原始黄页名称,再对所得到的原始黄页名称进行特征筛选来确定出最终准确率较高的目标黄页名称,这样的方式,克服了传统方法下黄页号码名称采集与更新效率十分可靠性低下的问题,有效提高了黄页号码名称的采集与更新效率可靠性。
Description
技术领域
本发明涉及信息处理技术领域,尤其涉及一种信息处理方法、设备及计算机存储介质。
背景技术
随着信息技术的发展,手机成为人们开展业务的必不可少的帮手,人们通过运行手机上的通话应用来与各个商家进行联系,商家同样也通过拨打用户的电话来进行沟通,进而开展各种业务活动,因此,号码及对应号码的信息名称,即黄页号码名称非常重要,用户需要通过号码显示的相关信息来识别相应的联系对象。
目前,黄页号码名称主要来源于各大相关厂商的统计提交数据,但是这些数据往往只能覆盖部门行业,这样的数据处理方式可靠性较低。
发明内容
本发明实施例为了有效克服现有技术所存在的上述缺陷,创造性地提供一种信息处理方法,所述方法包括:获取查询号码的原始信息;根据所述查询号码的原始信息获取对应于所述查询号码的多个原始黄页名称;对所述多个原始黄页名称进行特征筛选,得到对应于所述查询号码的目标黄页名称。
在一可实施方式中,所述对所述多个原始黄页名称进行特征筛选,得到对应于所述查询号码的目标黄页名称包括:对所述多个原始黄页名称进行频次分析,得到分别对应于所述多个原始黄页名称的多个频次值;根据分别对应于所述多个原始黄页名称的多个频次值确定目标黄页名称。
在一可实施方式中,所述根据分别对应于所述多个原始黄页名称的多个频次值确定目标黄页名称包括:判断所述多个频次值中是否存在满足频次阈值的目标频次值;当所述多个所述频次值中存在满足频次阈值的目标频次值时,将所述目标频次值对应的原始黄页名称确定为目标黄页名称。
在一可实施方式中,所述根据分别对应于所述多个原始黄页名称的多个频次值确定目标黄页名称包括:获取所述查询号码的网页特征信息;根据所述查询号码的网页特征信息和分别对应于所述多个原始黄页名称的多个频次值确定目标黄页名称。
在一可实施方式中,所述根据所述查询号码的网页特征信息和分别对应于所述多个原始黄页名称的多个频次值确定目标黄页名称包括:根据所述查询号码的网页特征信息和分别对应于所述多个原始黄页名称的多个频次值确定黄页名称选择结果;根据所述黄页名称选择结果确定对应于所述查询号码的目标黄页名称。
在一可实施方式中,在根据所述查询号码的网页特征信息和对应于所述多个原始黄页名称的多个所述频次值确定黄页名称选择结果之前,所述方法还包括:获取样本号码对应的黄页名称标识和对应于所述样本号码的网页特征信息,以及对应于所述黄页名称标识的频次信息;根据所述样本号码的网页特征信息、对应于所述黄页名称标识的频次信息以及样本号码对应的黄页名称标识进行训练,得到黄页选择模型;相应的,根据所述查询号码的网页特征信息和分别对应于所述多个原始黄页名称的多个频次值确定黄页名称选择结果,包括:通过所述黄页选择模型根据所述查询号码的网页特征信息和分别对应于所述多个原始黄页名称的多个频次值确定黄页名称选择结果。
在一可实施方式中,在根据所述查询号码的原始信息获取对应于所述查询号码的多个原始黄页名称之前,所述方法还包括:获取标注语料,所述标注语料至少包括标题信息、摘要信息和对应标注黄页名称信息;根据所述标注语料训练命名实体识别模型;相应的,根据所述查询号码的原始信息获取对应于所述查询号码的多个原始黄页名称,包括:通过所述命名实体识别模型根据所述查询号码的原始信息获取对应于所述查询号码的多个原始黄页名称。
本发明另一方面提供一种信息处理设备,包括:数据获取模块,用于获取查询号码的原始信息;数据处理模块,用于根据所述查询号码的原始信息获取对应于所述查询号码的多个原始黄页名称;所述数据处理模块还用于,对所述多个原始黄页名称进行特征筛选,得到对应于所述查询号码的目标黄页名称。
在一可实施方式中,所述数据处理模块还用于,对所述多个原始黄页名称进行频次分析,得到分别对应于所述多个原始黄页名称的多个频次值;根据分别对应于所述多个原始黄页名称的多个频次值确定目标黄页名称。
本发明另一方面提供一种计算机存储介质,所述计算机存储介质中存储有计算机可执行指令,当所述指令被执行时用于执行上述中任一项所述的信息处理方法。
本发明实施例提供的信息处理方法、设备及计算机存储介质,通过根据查询号码的原始信息确定原始黄页名称,再对所得到的原始黄页名称进行特征筛选来确定出最终准确率较高的目标黄页名称,这样的方式,克服了传统方法下黄页号码名称采集可靠性低下的问题,有效提高了黄页号码名称的采集可靠性。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1为本发明一实施例所提供的一种信息处理方法的一种实现流程示意图;
图2为本发明一实施例所提供的一种信息处理方法的一种具体实现流程示意图;
图3为本发明一实施例所提供的一种信息处理设备的一种组成结构示意图。
具体实施方式
为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
请参考图1,本发明实施例一方面提供一种信息处理方法,方法包括:
步骤101,获取查询号码的原始信息;
步骤102,根据查询号码的原始信息获取对应于查询号码的多个原始黄页名称;
步骤103,对多个原始黄页名称进行特征筛选,得到对应于查询号码的目标黄页名称。
本发明实施例步骤101中,查询号码的原始信息至少包括标题、摘要信息,原始信息可以从预先收集的数据库中获取,也可以通过建立数据获取模型,并利用数据获取模型从网页中或其他地方进行获取,本发明实施例在此不对原始信息的获取方法进行限制。
步骤102中可以通过命名识别模型来根据查询号码的原始信息获取原始黄页名称,其中,命名识别模型可以采用外源命名识别模型,也可以通过预先根据包括有标题训练集数据和摘要训练集数据的原始信息训练集进行训练构建,当然,还可以通过其他方法获取对应于查询号码的原始黄页名称,本发明实施例在此不对获取原始黄页名称的具体方法进行限制。由于同样的查询号码通常会出现在多个不同的信息源中,如当从网页中获取查询号码的原始信息时,可以查询到相关公司主页、第三招聘平台网页中关于该公司的招聘网页、相关公司的论坛或微博网页等多个查询号码的相关网页,因此,根据这多个相关信息源能获取到多种查询号码的原始信息。以这样的原始信息作为参考数据利用命名识别模型进行原始黄页名称识别,便能获取到对应于查询号码的多个原始黄页名称。
获取到对应于查询号码的多个原始黄页名称后,再通过步骤103进行特征信息筛选,最后才能够得到对应于查询号码的准确的目标黄页名称。本发明实施例中,特征筛选的方法可以包括名称相似度筛选,即通过对比多个原始黄页名称之间的相似度来确定目标黄页名称;或通过名称频次筛选,即通过对原始黄页名称计算频次值,将满足频次阈值的频次值对应的原始黄页名称确定为目标黄页名称;还可以通过比对每个原始黄页名称所对应的网页排名,将网页排名最前的原始黄页名称确定为目标黄页名称等方法,本发明实施例在此不对特征筛选的具体方式进行限制。
本发明实施例通过根据查询号码的原始信息确定原始黄页名称,再对所得到的原始黄页名称进行特征筛选来确定出最终准确率较高的目标黄页名称,这样的方式,克服了传统方法下黄页号码名称采集可靠性低下的问题,有效提高了黄页号码名称的采集可靠性。
在一可实施方式中,对多个原始黄页名称进行特征筛选,得到对应于查询号码的目标黄页名称包括:
对多个原始黄页名称进行频次分析,得到分别对应于多个原始黄页名称的多个频次值;
根据分别对应于多个原始黄页名称的多个频次值确定目标黄页名称。
本发明实施例通过对所获得的多个原始黄页名称进行频次分析的方式来得到频次值,其中,对原始黄页名称进行频次分析可以通过:对多个原始黄页名称进行分类,得到多个类别的原始黄页名称数据集;统计每一个类别中的原始黄页名称数据集中的原始黄页名称数量,并将每一个原始黄页名称数据集中的原始黄页名称数量确定为对应于此类别中的原始黄页名称的频次值。也可以通过对多个原始黄页名称之间进行相似度判断;并将相似度达到目标阈值的多个原始黄页名称的数量确定为对应于这多个原始黄页名称的频次值。当然,还可以通过如建模等其他方法来实现频次值统计,本发明实施例在此不对频次值获取的具体方法进行限制。
其中,根据对应于多个原始黄页名称的多个频次值确定目标黄页名称,具体可以通过如将频次值最高的原始黄页名称确定为目标黄页名称;或通过结合频次值排名和其他对应于查询号码或原始黄页名称的特征信息来确定目标黄页名称,本发明实施例在此不对确定目标黄页名称的具体方法进行限制。
在一可实施方式中,根据分别对应于多个原始黄页名称的多个频次值确定目标黄页名称包括:
判断多个频次值中是否存在满足频次阈值的目标频次值;
当多个频次值中存在满足频次阈值的目标频次值时,将目标频次值对应的原始黄页名称确定为目标黄页名称。
本发明实施例采用判断多个频次值中是否存在满足频次阈值的目标频次值的方法来确定目标黄页名称,即通过概率统计的方法来将频次值达到标准的原始黄页名称确定为目标黄页名称,本发明实施例能够通过提高目标频次值的频次阈值来提高对目标黄页名称的筛选准确率,有助于提高目标黄页名称的可靠性。
在一可实施方式中,根据分别对应于多个原始黄页名称的多个频次值确定目标黄页名称包括:
获取查询号码的网页特征信息;
根据查询号码的网页特征信息和分别对应于多个原始黄页名称的多个频次值确定目标黄页名称。
本发明实施例中,查询号码的网页特征信息可以为对应于查询号码的每一个网页排名信息,根据网页排名逐渐增大,对应网页的原始黄页名称计算权重增加的方法来提高原始黄页名称的筛选准确率。当然,本发明实施例还可以通过根据查询号码的网页特征信息和分别对应于多个原始黄页名称的多个频次值进行建模的方式来确定目标黄页名称,本发明实施例在此不对目标黄页名称的具体确定方法进行限制。本发明通过结合查询号码的网页特征信息和对应于原始黄页名称的频次值来确定目标黄页名称,能够有效提高对原始黄页名称的筛选准确率,进而提高目标黄页名称的可靠性。
在一可实施方式中,根据查询号码的网页特征信息和分别对应于多个原始黄页名称的多个频次值确定目标黄页名称包括:
根据查询号码的网页特征信息和分别对应于多个原始黄页名称的多个频次值确定黄页名称选择结果;
根据黄页名称选择结果确定对应于查询号码的目标黄页名称。
本发明实施例中,先通过查询号码的网页特征信息和对应于多个原始黄页名称的多个频次值确定出黄页名称选择结果,其中黄页名称选择结果可以为对应于每一个原始黄页名称的可靠性评分结果,然后根据可靠性评分结果来确定对应于查询号码的目标黄页名称,包括将可靠性评分结果最高的原始黄页名称确定为目标黄页名称,或通过设定对应于每一个原始黄页名称的权重值或损失参数,并根据权重值或损失参数调整可靠性评分结果后,再根据调整后的可靠性评分结果确定目标黄页名称。当然本发明实施例还可以通过其他方法来根据黄页名称选择结果确定目标黄页名称,本发明实施例在此不对具体方法进行限制。
在一可实施方式中,在根据查询号码的网页特征信息和对应于多个原始黄页名称的多个频次值确定黄页名称选择结果之前,方法还包括:
获取样本号码对应的黄页名称标识和对应于样本号码的网页特征信息,以及对应于黄页名称标识的频次信息;
根据样本号码的网页特征信息、对应于黄页名称标识的频次信息以及样本号码对应的黄页名称标识进行训练,得到黄页选择模型;
相应的,根据查询号码的网页特征信息和分别对应于多个原始黄页名称的多个频次值确定黄页名称选择结果,包括:
通过黄页选择模型根据查询号码的网页特征信息和分别对应于多个原始黄页名称的多个频次值确定黄页名称选择结果。
本发明实施例中,先通过获取样本数据,包括样本号码对应的黄页名称标识和网页特征信息,以及对应于黄页名称标识的频次信息来进行训练建模,得到黄页选择模型,其中,黄页选择模型的训练集标签使用文本相似度来判断所识别的黄页名称选择结果与标注黄页名称之间的相似度来计算。再将查询号码的网页特征信息、对应于多个原始黄页名称的多个频次值输入黄页选择模型,通过黄页选择模型确定黄页名称选择结果,这样的黄页名称筛选方式减少了人力物力的资源损耗,并且能够有效提高黄页名称选择结果的筛选效率和可靠性。
在一可实施方式中,在根据查询号码的原始信息获取对应于查询号码的多个原始黄页名称之前,方法还包括:
获取标注语料,标注语料至少包括标题信息、摘要信息和对应标注黄页名称信息;
根据标注语料训练命名实体识别模型;
相应的,根据查询号码的原始信息获取对应于查询号码的多个原始黄页名称,包括:
通过命名实体识别模型根据查询号码的原始信息获取对应于查询号码的多个原始黄页名称。本发明实施例中,先根据标注语料中的标题信息、摘要信息和对应标注黄页名称来训练命名实体识别模型,再将查询号码的原始信息输入命名实体识别模型,从而获取对应于查询号码的多个原始黄页名称,这样通过模型识别获取原始黄页名称的方式减少了人力物力的资源损耗,并且能够有效提高对原始黄页名称的识别效率和可靠性。
在一可实施方式中,通过网络爬虫获取查询号码的原始信息。本发明实施例通过网络爬虫获取查询号码的原始信息,具体可以包括:通过网络爬虫获取从搜索引擎上下载网页,并抓取网页中的相关文本信息内容;再对所抓取的网页中的相关文本信息内容进行分析,得到对应于查询号码的原始信息;当然,本发明实施例也可以通过其他类似等同替换方案来实现原始信息的获取,本发明实施例在此不对网络爬虫获取查询号码原始信息的具体方式进行限制。
请参考图2,在一可实施方式中,通过网络爬虫爬取、解析得到对应于查询号码的号码搜索结果后,再对号码搜索结果进行标题、摘要信息的提取,然后通过使用命名实体识别的深度学习技术构建的命名实体识别模型根据所提取的对应于查询号码的标题、摘要信息进行命名识别,得到对应于查询号码的多个黄页名称;然后再获取网页特征信息;通过根据机器学习算法构建的黄页选择模型根据网页特征信息以及选择策略确定出对应于查询号码的唯一一个黄页名称,即目标黄页名称。本发明实施例采用策略与机器学习模型相结合的方法确定目标黄页名称,保证了号码与黄页名称的一一对应,并进一步的提升了黄页名称选取结果的准确性。
请参考图3,本发明另一方面提供一种信息处理设备,设备包括:
数据获取模块201,用于获取查询号码的原始信息;
数据处理模块202,用于根据查询号码的原始信息获取对应于查询号码的多个原始黄页名称;
数据处理模块202还用于,对多个原始黄页名称进行特征筛选,得到对应于查询号码的目标黄页名称。
本发明实施例中,查询号码的原始信息至少包括标题、摘要信息,原始信息可以从预先收集的数据库中获取,也可以通过建立数据获取模型,并利用数据获取模型从网页中或其他地方进行获取,本发明实施例在此不对原始信息的获取方法进行限制。
数据获取模块201中可以通过命名识别模型来根据查询号码的原始信息获取原始黄页名称,其中,命名识别模型可以采用外源命名识别模型,也可以通过预先根据包括有标题训练集数据和摘要训练集数据的原始信息训练集进行训练构建,当然,还可以通过其他方法获取对应于查询号码的原始黄页名称,本发明实施例在此不对获取原始黄页名称的具体方法进行限制。由于同样的查询号码通常会出现在多个不同的信息源中,如当从网页中获取查询号码的原始信息时,可以查询到相关公司主页、第三招聘平台网页中关于该公司的招聘网页、相关公司的论坛或微博网页等多个查询号码的相关网页,因此,根据这多个相关信息源能获取到多种查询号码的原始信息。以这样的原始信息作为参考数据利用命名识别模型进行原始黄页名称识别,便能获取到对应于查询号码的多个原始黄页名称。
获取到对应于查询号码的多个原始黄页名称后,再通过数据处理模块202进行特征信息筛选,最后才能够得到对应于查询号码的准确的目标黄页名称。本发明实施例中,特征筛选的方法可以包括名称相似度筛选,即通过对比多个原始黄页名称之间的相似度来确定目标黄页名称;或通过名称频次筛选,即通过对原始黄页名称计算频次值,将满足频次阈值的频次值对应的原始黄页名称确定为目标黄页名称;还可以通过比对每个原始黄页名称所对应的网页排名,将网页排名最前的原始黄页名称确定为目标黄页名称等方法,本发明实施例在此不对特征筛选的具体方式进行限制。
本发明实施例通过命名识别模型来根据查询号码的原始信息确定原始黄页名称,再对所得到的原始黄页名称进行特征筛选来确定出最终准确率较高的目标黄页名称,这样通过模型来预选查询号码对应的黄页名称的方式,克服了传统方法下黄页号码名称采集可靠性低下的问题,有效提高了黄页号码名称的采集可靠性。
在一可实施方式中,数据处理模块202还用于,对多个原始黄页名称进行频次分析,得到分别对应于多个原始黄页名称的多个频次值;根据分别对应于多个原始黄页名称的多个频次值确定目标黄页名称。
本发明实施例通过对所获得的多个原始黄页名称进行频次分析的方式来得到频次值,其中,对原始黄页名称进行频次分析可以通过:对多个原始黄页名称进行分类,得到多个类别的原始黄页名称数据集;统计每一个类别中的原始黄页名称数据集中的原始黄页名称数量,并将每一个原始黄页名称数据集中的原始黄页名称数量确定为对应于此类别中的原始黄页名称的频次值。也可以通过对多个原始黄页名称之间进行相似度判断;并将相似度达到目标阈值的多个原始黄页名称的数量确定为对应于这多个原始黄页名称的频次值。当然,还可以通过如建模等其他方法来实现频次值统计,本发明实施例在此不对频次值获取的具体方法进行限制。
其中,根据对应于多个原始黄页名称的多个频次值确定目标黄页名称,具体可以通过如将频次值最高的原始黄页名称确定为目标黄页名称;或通过结合频次值排名和其他对应于查询号码或原始黄页名称的特征信息来确定目标黄页名称,本发明实施例在此不对确定目标黄页名称的具体方法进行限制。
在一可实施方式中,数据处理模块202还用于,判断多个频次值中是否存在满足频次阈值的目标频次值;当多个频次值中存在满足频次阈值的目标频次值时,将目标频次值对应的原始黄页名称确定为目标黄页名称;
本发明实施例采用判断多个频次值中是否存在满足频次阈值的目标频次值的方法来确定目标黄页名称,即通过概率统计的方法来将频次值达到标准的原始黄页名称确定为目标黄页名称,本发明实施例能够通过提高目标频次值的频次阈值来提高对目标黄页名称的筛选准确率,有助于提高目标黄页名称的可靠性。
在一可实施方式中,数据获取模块201还用于,获取查询号码的网页特征信息;
数据处理模块202还用于,根据查询号码的网页特征信息和分别对应于多个原始黄页名称的多个频次值确定目标黄页名称。
本发明实施例中,查询号码的网页特征信息可以为对应于查询号码的每一个网页排名信息,根据网页排名逐渐增大,对应网页的原始黄页名称计算权重增加的方法来提高原始黄页名称的筛选准确率。当然,本发明实施例还可以通过根据查询号码的网页特征信息和分别对应于多个原始黄页名称的多个频次值进行建模的方式来确定目标黄页名称,本发明实施例在此不对目标黄页名称的具体确定方法进行限制。本发明通过结合查询号码的网页特征信息和对应于原始黄页名称的频次值来确定目标黄页名称,能够有效提高对原始黄页名称的筛选准确率,进而提高目标黄页名称的可靠性。
在一可实施方式中,数据处理模块202还用于,根据查询号码的网页特征信息和分别对应于多个原始黄页名称的多个频次值确定黄页名称选择结果;根据黄页名称选择结果确定对应于查询号码的目标黄页名称。
本发明实施例中,先通过查询号码的网页特征信息和对应于多个原始黄页名称的多个频次值确定出黄页名称选择结果,其中黄页名称选择结果可以为对应于每一个原始黄页名称的可靠性评分结果,然后根据可靠性评分结果来确定对应于查询号码的目标黄页名称,包括将可靠性评分结果最高的原始黄页名称确定为目标黄页名称,或通过设定对应于每一个原始黄页名称的权重值或损失参数,并根据权重值或损失参数调整可靠性评分结果后,再根据调整后的可靠性评分结果确定目标黄页名称。当然本发明实施例还可以通过其他方法来根据黄页名称选择结果确定目标黄页名称,本发明实施例在此不对具体方法进行限制。
在一可实施方式中,数据获取模块201还用于,获取样本号码对应的黄页名称标识和对应于样本号码的网页特征信息,以及对应于黄页名称标识的频次信息;
数据处理模块202还用于,根据样本号码的网页特征信息、对应于黄页名称标识的频次信息以及样本号码对应的黄页名称标识进行训练,得到黄页选择模型;
相应的,数据处理模块202还用于,通过黄页选择模型根据查询号码的网页特征信息和分别对应于多个原始黄页名称的多个频次值确定黄页名称选择结果。
本发明实施例中,先通过获取样本数据,包括样本号码对应的黄页名称标识和网页特征信息,以及对应于黄页名称标识的频次信息来进行训练建模,得到黄页选择模型,其中,黄页选择模型的训练集标签使用文本相似度来判断所识别的黄页名称选择结果与标注黄页名称之间的相似度来计算。再将查询号码的网页特征信息、对应于多个原始黄页名称的多个频次值输入黄页选择模型,通过黄页选择模型确定黄页名称选择结果,这样的黄页名称筛选方式减少了人力物力的资源损耗,并且能够有效提高黄页名称选择结果的筛选效率和可靠性。
在一可实施方式中,数据获取模块201还用于,获取标注语料,标注语料至少包括标题信息、摘要信息和对应标注黄页名称信息;
数据处理模块202还用于,根据标注语料训练命名实体识别模型;
相应的,数据处理模块202还用于,通过命名实体识别模型根据查询号码的原始信息获取对应于查询号码的多个原始黄页名称。本发明实施例中,先根据标注语料中的标题信息、摘要信息和对应标注黄页名称来训练命名实体识别模型,再将查询号码的原始信息输入命名实体识别模型,从而获取对应于查询号码的多个原始黄页名称,这样通过模型识别获取原始黄页名称的方式减少了人力物力的资源损耗,并且能够有效提高对原始黄页名称的识别效率和可靠性。
在一可实施方式中,通过网络爬虫获取查询号码的原始信息。本发明实施例通过网络爬虫获取查询号码的原始信息,具体可以包括:通过网络爬虫获取从搜索引擎上下载网页,并抓取网页中的相关文本信息内容;再对所抓取的网页中的相关文本信息内容进行分析,得到对应于查询号码的原始信息;当然,本发明实施例也可以通过其他类似等同替换方案来实现原始信息的获取,本发明实施例在此不对网络爬虫获取查询号码原始信息的具体方式进行限制。
本发明另一方面提供一种计算机可读存储介质,存储介质中存储有计算机可执行指令,当指令被执行时用于执行上述任一项的信息处理方法。
这里需要指出的是:以上实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果,对于本发明实施例中未披露的技术细节,请参照本发明方法实施例的描述而理解,为节约篇幅,因此不再赘述。
本发明实施例中,多个步骤之间的实现顺序在不影响实现目的的情况下可以替换。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种信息处理方法,其特征在于,所述方法包括:
获取查询号码的原始信息;
根据所述查询号码的原始信息获取对应于所述查询号码的多个原始黄页名称;
对所述多个原始黄页名称进行特征筛选,得到对应于所述查询号码的目标黄页名称。
2.根据权利要求1所述的方法,其特征在于,所述对所述多个原始黄页名称进行特征筛选,得到对应于所述查询号码的目标黄页名称包括:
对所述多个原始黄页名称进行频次分析,得到分别对应于所述多个原始黄页名称的多个频次值;
根据分别对应于所述多个原始黄页名称的多个频次值确定目标黄页名称。
3.根据权利要求2所述的方法,其特征在于,所述根据分别对应于所述多个原始黄页名称的多个频次值确定目标黄页名称包括:
判断所述多个频次值中是否存在满足频次阈值的目标频次值;
当所述多个所述频次值中存在满足频次阈值的目标频次值时,将所述目标频次值对应的原始黄页名称确定为目标黄页名称。
4.根据权利要求2所述的方法,其特征在于,所述根据分别对应于所述多个原始黄页名称的多个频次值确定目标黄页名称包括:
获取所述查询号码的网页特征信息;
根据所述查询号码的网页特征信息和分别对应于所述多个原始黄页名称的多个频次值确定目标黄页名称。
5.根据权利要求4所述的方法,其特征在于,所述根据所述查询号码的网页特征信息和分别对应于所述多个原始黄页名称的多个频次值确定目标黄页名称包括:
根据所述查询号码的网页特征信息和分别对应于所述多个原始黄页名称的多个频次值确定黄页名称选择结果;
根据所述黄页名称选择结果确定对应于所述查询号码的目标黄页名称。
6.根据权利要求5所述的方法,其特征在于,在根据所述查询号码的网页特征信息和对应于所述多个原始黄页名称的多个所述频次值确定黄页名称选择结果之前,所述方法还包括:
获取样本号码对应的黄页名称标识和对应于所述样本号码的网页特征信息,以及对应于所述黄页名称标识的频次信息;
根据所述样本号码的网页特征信息、对应于所述黄页名称标识的频次信息以及样本号码对应的黄页名称标识进行训练,得到黄页选择模型;
相应的,根据所述查询号码的网页特征信息和分别对应于所述多个原始黄页名称的多个频次值确定黄页名称选择结果,包括:
通过所述黄页选择模型根据所述查询号码的网页特征信息和分别对应于所述多个原始黄页名称的多个频次值确定黄页名称选择结果。
7.根据权利要求1至6任一项所述的方法,其特征在于,在根据所述查询号码的原始信息获取对应于所述查询号码的多个原始黄页名称之前,所述方法还包括:
获取标注语料,所述标注语料至少包括标题信息、摘要信息和对应标注黄页名称信息;
根据所述标注语料训练命名实体识别模型;
相应的,根据所述查询号码的原始信息获取对应于所述查询号码的多个原始黄页名称,包括:
通过所述命名实体识别模型根据所述查询号码的原始信息获取对应于所述查询号码的多个原始黄页名称。
8.一种信息处理设备,其特征在于,包括:
数据获取模块,用于获取查询号码的原始信息;
数据处理模块,用于根据所述查询号码的原始信息获取对应于所述查询号码的多个原始黄页名称;
所述数据处理模块还用于,对所述多个原始黄页名称进行特征筛选,得到对应于所述查询号码的目标黄页名称。
9.根据权利要求8所述的设备,其特征在于,所述数据处理模块还用于,对所述多个原始黄页名称进行频次分析,得到分别对应于所述多个原始黄页名称的多个频次值;根据分别对应于所述多个原始黄页名称的多个频次值确定目标黄页名称。
10.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有计算机可执行指令,当所述指令被执行时用于执行权利要求1-7中任一项所述的信息处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910754073.2A CN110516140A (zh) | 2019-08-15 | 2019-08-15 | 一种信息处理方法、设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910754073.2A CN110516140A (zh) | 2019-08-15 | 2019-08-15 | 一种信息处理方法、设备及计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110516140A true CN110516140A (zh) | 2019-11-29 |
Family
ID=68625323
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910754073.2A Pending CN110516140A (zh) | 2019-08-15 | 2019-08-15 | 一种信息处理方法、设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110516140A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1909522A (zh) * | 2006-08-18 | 2007-02-07 | 北京金山软件有限公司 | 获取网页关键字的方法及其应用系统 |
CN104166651A (zh) * | 2013-05-16 | 2014-11-26 | 阿里巴巴集团控股有限公司 | 基于对同类数据对象整合的数据搜索的方法和装置 |
CN104199851A (zh) * | 2014-08-11 | 2014-12-10 | 北京奇虎科技有限公司 | 通过黄页信息提取电话号码的方法及云端服务器 |
CN105608137A (zh) * | 2015-12-17 | 2016-05-25 | 厦门市美亚柏科信息股份有限公司 | 一种提取身份标识的方法和装置 |
CN106021439A (zh) * | 2016-05-16 | 2016-10-12 | 腾讯科技(深圳)有限公司 | 一种对通信号码的处理方法及装置 |
CN106850828A (zh) * | 2017-02-28 | 2017-06-13 | 努比亚技术有限公司 | 一种黄页数据的提供方法和装置 |
CN107577702A (zh) * | 2017-07-28 | 2018-01-12 | 中南大学 | 一种社交媒体中交通信息的辨别方法 |
CN109635082A (zh) * | 2018-11-26 | 2019-04-16 | 平安科技(深圳)有限公司 | 政策影响分析方法、装置、计算机设备和存储介质 |
-
2019
- 2019-08-15 CN CN201910754073.2A patent/CN110516140A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1909522A (zh) * | 2006-08-18 | 2007-02-07 | 北京金山软件有限公司 | 获取网页关键字的方法及其应用系统 |
CN104166651A (zh) * | 2013-05-16 | 2014-11-26 | 阿里巴巴集团控股有限公司 | 基于对同类数据对象整合的数据搜索的方法和装置 |
CN104199851A (zh) * | 2014-08-11 | 2014-12-10 | 北京奇虎科技有限公司 | 通过黄页信息提取电话号码的方法及云端服务器 |
CN105608137A (zh) * | 2015-12-17 | 2016-05-25 | 厦门市美亚柏科信息股份有限公司 | 一种提取身份标识的方法和装置 |
CN106021439A (zh) * | 2016-05-16 | 2016-10-12 | 腾讯科技(深圳)有限公司 | 一种对通信号码的处理方法及装置 |
CN106850828A (zh) * | 2017-02-28 | 2017-06-13 | 努比亚技术有限公司 | 一种黄页数据的提供方法和装置 |
CN107577702A (zh) * | 2017-07-28 | 2018-01-12 | 中南大学 | 一种社交媒体中交通信息的辨别方法 |
CN109635082A (zh) * | 2018-11-26 | 2019-04-16 | 平安科技(深圳)有限公司 | 政策影响分析方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9449271B2 (en) | Classifying resources using a deep network | |
US7424484B2 (en) | Path-based ranking of unvisited web pages | |
CN105045875B (zh) | 个性化信息检索方法及装置 | |
EP1669896A2 (en) | A machine learning system for extracting structured records from web pages and other text sources | |
CN108415902A (zh) | 一种基于搜索引擎的命名实体链接方法 | |
CN111813905B (zh) | 语料生成方法、装置、计算机设备及存储介质 | |
US20180218241A1 (en) | Webpage classification method and apparatus, calculation device and machine readable storage medium | |
CN103064956A (zh) | 用于搜索电子内容的方法、计算系统和计算机可读介质 | |
CN110888991B (zh) | 一种弱标注环境下的分段式语义标注方法 | |
CN103324666A (zh) | 一种基于微博数据的话题跟踪方法及装置 | |
CN111105209A (zh) | 适用于人岗匹配推荐系统的职位简历匹配方法及装置 | |
CN103886020B (zh) | 一种房地产信息快速搜索方法 | |
CN103577534B (zh) | 搜索方法和搜索引擎 | |
CN103150369A (zh) | 作弊网页识别方法及装置 | |
CN109145301B (zh) | 信息分类方法及装置、计算机可读存储介质 | |
CN106649849A (zh) | 文本信息库建立方法和装置、以及搜索方法、装置和系统 | |
CN109933660A (zh) | 面向自然语言形式的基于讲义和Stack Overflow的API信息检索方法 | |
US20160170993A1 (en) | System and method for ranking news feeds | |
US11232156B1 (en) | Seed expansion in social network using graph neural network | |
CN110110225A (zh) | 基于用户行为数据分析的在线教育推荐模型及构建方法 | |
CN103714149A (zh) | 一种自适应增量式的深层网络数据源发现方法 | |
CN107066548A (zh) | 一种双维度分类提取网页链接的方法 | |
CN110427404A (zh) | 一种区块链跨链数据检索系统 | |
CN110990627A (zh) | 一种知识图谱构建的方法、装置、电子设备及介质 | |
KR101346927B1 (ko) | 검색 장치, 검색 방법, 및 검색 프로그램을 기억하는 컴퓨터 판독 가능한 기록 매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191129 |