CN110209771A - 用户地理信息分析与文本挖掘方法和装置 - Google Patents
用户地理信息分析与文本挖掘方法和装置 Download PDFInfo
- Publication number
- CN110209771A CN110209771A CN201910515695.XA CN201910515695A CN110209771A CN 110209771 A CN110209771 A CN 110209771A CN 201910515695 A CN201910515695 A CN 201910515695A CN 110209771 A CN110209771 A CN 110209771A
- Authority
- CN
- China
- Prior art keywords
- sentence
- vector
- address sentence
- address
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3337—Translation of the query language, e.g. Chinese to English
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于自然语言处理的用户地理信息分析与文本挖掘研究方法和装置,该方法包括:获取输入的地址语句;若地址语句为英文地址语句,则进行分词处理,获取英文地址语句的词向量,根据预先构造的翻译词典,对词向量中的每个词元素进行翻译,以将每个词元素转换成对应的中文词汇的拼音字符串;针对拼音字符串,根据预先计算的词元素索引向量生成对应的权值分配规则,以确定权值向量;根据权值向量和词元素的存在性向量,计算任意两个地址语句的相似度,以确定目标地址语句;应用目标地址语句,分析用户地理信息和挖掘对应的文本信息。这样能够充分分析用户地理信息分析进而充分反应用户的社群特征。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于自然语言处理的用户地理信息分析与文本挖掘研究方法和装置。
背景技术
随着科技的进步和发展,大数据的应用越来越广泛,大数据时代最显著的特征是整个社会中信息化数据量的急剧增加。用户地理信息反映了用户的住宅地址、通讯地址和实时地址等,其中,住宅地址和通讯地址可以反映用户的居住信息,而通过解析用户IP地址(Internet Protocol Address,又译为网际协议地址)获得的实时地址反映了用户发起需求时的位置信息。随着移动互联网的迅速普及,用户随时随地均可以发起需求,用户地理信息以指数级的速度增长。而用户地理信息非结构化数据,多以汉字文本的形式存储,给数据处理增加了难度。此外,现有用户地理信息分析不够充分,无法反映用户的社群特征。
发明内容
有鉴于此,提供一种基于自然语言处理的用户地理信息分析与文本挖掘研究方法和装置,以解决现有技术中用户地理信息分析不够充分以及无法反应用户的社群特征的问题。
本发明采用如下技术方案:
第一方面,本申请实施例提供了一种基于自然语言处理的用户地理信息分析与文本挖掘研究方法,该方法包括:
获取输入的地址语句;
若所述地址语句为英文地址语句,则进行分词处理,获取所述英文地址语句的词向量,根据预先构造的翻译词典,对所述词向量中的每个词元素进行翻译,以将所述每个词元素转换成对应的中文词汇的拼音字符串;
针对所述拼音字符串,根据预先计算的词元素索引向量生成对应的权值分配规则,以确定权值向量;
根据所述权值向量和所述词元素的存在性向量,计算任意两个地址语句的相似度,以确定目标地址语句;
应用所述目标地址语句,分析用户地理信息和挖掘对应的文本信息。
进一步的,获取输入的地址语句之后,还包括:
若所述地址语句为中文地址语句,则将所述中文地址语句转换成拼音字符串。
进一步的,以确定目标地址语句,包括:
将相似度与预设相似度阈值进行比较,确定大于预设相似度阈值的任意两个地址语句为目标地址语句。
进一步的,根据所述权值向量和所述词元素的存在性向量,计算任意两个地址语句的相似度,以确定目标地址语句,之前,还包括:
计算所述词元素的存在性向量。
进一步的,计算所述词元素的存在性向量,包括:
遍历所述英文地址语句对应的词向量;
判断在所述中文地址语句对应的拼音字符串中是否存在所述词向量;
若是,则将所述词向量确定为存在性向量,并将所述词向量中的词元素值确定为所述词向量在所述拼音字符串中的起始索引位置。
第二方面,本申请实施例提供了一种基于自然语言处理的用户地理信息分析与文本挖掘研究装置,该装置包括:
获取模块,用于获取输入的地址语句;
翻译与转换模块,用于在所述地址语句为英文地址语句时,进行分词处理,获取所述英文地址语句的词向量,根据预先构造的翻译词典,对所述词向量中的每个词元素进行翻译,以将所述每个词元素转换成对应的中文词汇的拼音字符串;
权值向量确定模块,用于针对所述拼音字符串,根据预先计算的词元素索引向量生成对应的权值分配规则,以确定权值向量;
目标地址语句确定模块,用于根据所述权值向量和所述词元素的存在性向量,计算任意两个地址语句的相似度,以确定目标地址语句;
分析与挖掘模块,用于应用所述目标地址语句,分析用户地理信息和挖掘对应的文本信息。
进一步的,还包括转换模块,用于在获取输入的地址语句之后,若所述地址语句为中文地址语句,则将所述中文地址语句转换成拼音字符串。
进一步的,目标地址语句确定模块具体用于:
将相似度与预设相似度阈值进行比较,确定大于预设相似度阈值的任意两个地址语句为目标地址语句。
进一步的,还包括计算模块,用于根据所述权值向量和所述词元素的存在性向量,计算任意两个地址语句的相似度,以确定目标地址语句,之前,计算所述词元素的存在性向量。
进一步的,所述计算模块具体用于:
遍历所述英文地址语句对应的词向量;
判断在所述中文地址语句对应的拼音字符串中是否存在所述词向量;
若是,则将所述词向量确定为存在性向量,并将所述词向量中的词元素值确定为所述词向量在所述拼音字符串中的起始索引位置。
本发明采用以上技术方案,首先获取输入的地址语句;若所述地址语句为英文地址语句,则进行分词处理,获取所述英文地址语句的词向量,根据预先构造的翻译词典,对所述词向量中的每个词元素进行翻译,以将所述每个词元素转换成对应的中文词汇的拼音字符串;针对所述拼音字符串,根据预先计算的词元素索引向量生成对应的权值分配规则,以确定权值向量;根据所述权值向量和所述词元素的存在性向量,计算任意两个地址语句的相似度,以确定目标地址语句;应用所述目标地址语句,分析用户地理信息和挖掘对应的文本信息。这样,不基于中文分词方法,而是考虑用英文进行处理,解析结果以英文表达,通过对英文地址语句进行简单的分词处理即可在词汇这一语言级别上计算句子相似度,同时简化了句子相似度的计算过程,进而使得用户地理信息分析更充分,以及,反应的用户的社群特征的问题更充分。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于自然语言处理的用户地理信息分析与文本挖掘研究方法的流程图;
图2是本发明实施例提供的一种基于自然语言处理的用户地理信息分析与文本挖掘研究装置的结构示意图;
图3是本申请实施例提供的一种设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
首先对本申请实施例的应用场景以及技术背景进行说明,自然语言处理(NaturalLanguage Processing,NLP)是利用信息技术实现对人类语言自动化处理、理解的重要研究方向。在本申请实施例中,用户地理信息为中文信息,若想要对其做充分的内容分析,通常要以自然语言处理理论为基础。中文自然语言处理的研究内容是使用计算机算法对汉语的音、形、义进行处理和加工,如对字、词、句的识别、检索、分析和理解等。其研究方向有如下分类:(1)分词:NLP任务中最底层的技术。不论解决什么问题,分词永远是第一步;(2)词性标注:判断文本中的词的词性,例如名词、动词、形容词等,一般作为额外特征使用;(3)句法分析:分为句法结构分析和依存句法分析两种;(4)词干提取:从单词各种前缀后缀变化、时态变化等变化中还原词干,常见于英文文本处理;(5)命名实体识别:识别并抽取文本中的实体,一般采用BIO形式;(6)指代消歧:文本中的代词,如“他”“这个”等,还原成其所指实体;(7)关键词抽取:提取文本中的关键词,用以表征文本或下游应用(8)词向量与词嵌入:把单词映射到低维空间中,并保持单词间相互关系不变。是NLP深度学习技术的基础;(9)文本生成:给定特定的文本输入,生成所需要的文本,主要应用于文本摘要、对话系统、机器翻译、问答系统等领域。
自然语言处理通常比较抽象,直接用词汇和符号来表达概念。但是使用符号存在一个问题,比如两个词,它们的词性相近但词形不匹配,计算机内部就会认为它们是两个词。举个例子,荷兰和苏格兰这两个国家名,如果我们在一个语义的空间里,用词汇与词汇组合的方法,把它表示为连续、低维、稠密的向量的话,就可以计算不同层次的语言单元之间的相似度。这种方法同时也可以被神经网络直接使用,是这个领域的一个重要的变化。从词汇间的组合,到短语、句子,一直到篇章,再用深度学习,就带来了一个很大的转变。句子相似度计算是自然语言处理领域的研究热点,有着广泛的应用,一直是很多研究者关注的重要研究课题。但是,自然语语言构成复杂,表达方式多样化,只有少数的句子具备完整的组成句子的元素主语、谓语动词、宾语,而且这个要素以正常的顺序进行表达,大多数复合句和短句则缺少其中的某些组成元素,甚至以倒序方式进行表达。而相似度计算是信息处理领域的一项基础性研究课题,为了解决这个问题,研究人员在长期的研究过程中发现了许多计算句子相似度的方法,这些方法中既有设计简单、抽取句子特征较少的基于词共现的方法、基于最短编辑距离的方法等,也有涵盖句子特征信息较多、计算复杂的方法,如基于语义知识库的方法、基于向量空间的方法、基于大规模语料库的统计方法等。简单方法的优点显而易见,算法简单、需要的计算资源少、计算代价小等,但缺点也是很明显的,例如这些方法仅仅利用了句子的结构信息,如词形、词序等,缺乏对句子语义的深层挖掘,可能足以区分简单的共同特征较多较明显的简单句之间的相似性,但是对于词形表达相同或相似的复杂句,处理起来有难度。关于这一个问题主要体现在同义词转换上,提到的复杂的方法往往可以很好地解决这个问题,因为它们能够最大化地抽取句子中的共同特征。
实施例
图1为本发明实施例提供的一种基于自然语言处理的用户地理信息分析与文本挖掘研究方法的流程图,该方法可以由本发明实施例提供的基于自然语言处理的用户地理信息分析与文本挖掘研究装置来执行,该装置可采用软件和/或硬件的方式实现。参考图1,该方法具体可以包括如下步骤:
S101、获取输入的地址语句。
具体的,在计算地址语句的相似度的过程中,需要对句子进行切分,对切分后的词向量进行相似度计算,例如,可以将相似度计算过程中的各个环节进行模块化,构造一个可用的地址相似度计算子系统,输入数据分别是用中文和英文描述的两个地址语句。因此,首先获取输入的地址语句,获取方式可以是主动获取,还可是周期性接收等,这里不进行限定。在一个具体的例子中,地址语句可以是“北京市朝阳区建国门外大街5号院”。
S102、若所述地址语句为英文地址语句,则进行分词处理,获取所述英文地址语句的词向量,根据预先构造的翻译词典,对所述词向量中的每个词元素进行翻译,以将所述每个词元素转换成对应的中文词汇的拼音字符串。
具体的,首先对输入的地址语句进行预处理,例如,当地址语句为英文地址语句时,先对其进行分词处理,本申请实施例中是对英文地址语句进行分词处理,避免了现有技术中基于中文分词方法进行处理的问题:第一、由于分词工具主要用于文本处理,利用文档的背景信息和大规模语料库的统计结果进行分词,对属于短文本的地理信息分词效果差;另一方面是由于具有停用词处理工序,在长文本中,信息携带不高的停用词在属于短文本的值中可能属于关键词,去除后可能会影响最终的句子的相似度计算。而短文本句子携带的特征信息较少,某些停用词可能对句子起着关键作用。因此,本申请实施例中不基于中文分词方法,而是考虑英文分词方法进行处理。
此外,对英文地址语句进行分词处理后,获取英文地址语句的词向量,而每个词向量由若干词元素构成,然后根据预先构造的翻译词典,对词向量中的每个词元素进行翻译,这样,可以将每个词元素转换成对应的中文词汇的拼音字符串。
S103、针对所述拼音字符串,根据预先计算的词元素索引向量生成对应的权值分配规则,以确定权值向量。
具体的,在将每个词元素转换成对应的中文词汇的拼音字符串后,针对各个拼音字符串,根据预先计算的词元素索引向量生成对应的权值分配规则,示例性的,权值分配规则可以是结合预先计算的词元素索引向量中的元素确定的,具体可以是哪个词元素所属的词向量的权重较高,或者哪个词元素所属的词向量的权重较低。在一个具体的例子中,根据权值分配规则确定权值向量。
S104、根据所述权值向量和所述词元素的存在性向量,计算任意两个地址语句的相似度,以确定目标地址语句。
其中,句子的结构相似度是组成句子相似度的元素之一,因此,可以通过计算句子之间的词形相似度来评价句子的结构相似度。具体的,可以通过加权求值计算两个地址语句的相似度。然后再根据各个相似度的计算结果,选取满足条件的确定为目标地址语句。
S105、应用所述目标地址语句,分析用户地理信息和挖掘对应的文本信息。
具体的,在本申请实施例中,应用上述技术方案确定目标地址语句后,主要应用在用户地理信息分析以及挖掘对应的文本信息领域中,这样就可以快速对用户地理信息进行结构化处理,将文本保存在文本向量结构,既有利于信息存储,也有利于数据科学家进行文本挖掘。例如,基于人工智能的自然语言处理技术,对用户地理信息进行文本挖掘,深度分析千百万级用户的社群特征,包括用户地理位置的聚合分析、奇异点识别和标签标注等。
本发明采用以上技术方案,首先获取输入的地址语句;若所述地址语句为英文地址语句,则进行分词处理,获取所述英文地址语句的词向量,根据预先构造的翻译词典,对所述词向量中的每个词元素进行翻译,以将所述每个词元素转换成对应的中文词汇的拼音字符串;针对所述拼音字符串,根据预先计算的词元素索引向量生成对应的权值分配规则,以确定权值向量;根据所述权值向量和所述词元素的存在性向量,计算任意两个地址语句的相似度,以确定目标地址语句;应用所述目标地址语句,分析用户地理信息和挖掘对应的文本信息。这样,不基于中文分词方法,而是考虑用英文进行处理,解析结果以英文表达,通过对英文地址语句进行简单的分词处理即可在词汇这一语言级别上计算句子相似度,同时简化了句子相似度的计算过程,进而使得用户地理信息分析更充分,以及,反应的用户的社群特征的问题更充分。
在上述实施例的基础上,在获取输入的地址语句之后,本申请的技术方案还包括:若所述地址语句为中文地址语句,则将所述中文地址语句转换成拼音字符串。具体的,由于用户输入的地址语句可以是英文地址语句,还可以是中文地址语句,因此,在输入的地址语句为中文地址语句后,将中文地址语句直接转换成拼音字符串,无需应用中文分词方法进行分词。
示例性的,以确定目标地址语句,具体可以通过如下方式实现:将相似度与预设相似度阈值进行比较,确定大于预设相似度阈值的任意两个地址语句为目标地址语句。具体的,将计算完成的相似度和预设相似度阈值进行比较,其中,预设相似度阈值可以是预先设定的,还可以是在应用过程中根据场景和需求不同而实时进行修改。在本申请实施例中,将大于预设相似度阈值的任意两个地址语句确定为目标地址语句,以保证结果的正确性和有效性。
可选的,在根据所述权值向量和所述词元素的存在性向量,计算任意两个地址语句的相似度,以确定目标地址语句,之前,本申请的技术方案还包括:计算所述词元素的存在性向量。具体的,由于在确定目标地址语句时需要应用存在性向量,因此,首先需要计算词元素的存在性向量。
在一个具体的实施例中,计算所述词元素的存在性向量,具体可以通过如下方式实现:遍历所述英文地址语句对应的词向量;判断在所述中文地址语句对应的拼音字符串中是否存在所述词向量;若是,则将所述词向量确定为存在性向量,并将所述词向量中的词元素值确定为所述词向量在所述拼音字符串中的起始索引位置。
具体的,为了从词形角度提取句子间的共同特征,本申请实施例中加入了存在性向量计算这一处理过程,通过计算英文地址语句对应的词向量中每个一词元素在中文拼音字符串中的存在性,也即,中文地址语句对应的拼音字符串中是否存在词向量。示例性的,可以提取2个句子的词形共性。具体的,首先遍历英文地址语句对应的词向量,在中文地址语句对应的拼音字符串中查找该词元素的存在性,如果存在,则将该元素对应的存在性向量的元素值设为其在拼音字符串中的起始索引位置,否则,该位置的值计为1,表示拼音字符串中不存在该词元素,遍历结束后,即可获得该词向量对应的存在性向量。
此外,本申请实施例的技术方案还具备以下有益效果:利用用户地理信息中词语的词形及词义信息,提出了一种能够同时兼顾词形信息和词义信息的相似度计算方法,通过对实验语料的数据分析发现,由于地址语句以自然语言进行描述,因此,计算两个地址之间的相似度可以看成是计算两个句子之间的相似度,句子相似度是信息处理领域中的一项重要技术,具有广泛的应用价值。
另外,本申请实施例中,地址相似度计算问题转换成句子相似度计算问题,对句子相似度研究做了一定的拓展工作,从句子的结构、词形、词义等多个角度抽取句子的共同特征,实验证明取得了不错的应用效果。具体分析,本申请实施例在句子相似度计算的研究过程中主要取得了以下几个成果:针对具体应用,从词形、词义、词序等多个方面定义句子相似度,抽取共同特征向量,并对每种相似度的计算公式进行了定义,其中,语义相似度计算基于从训练语料中构建的同义词辞典实现;词形相似度计算基于词形存在性向量实现;词序相似度基于通过逆序数构建的分类器进行合理权值分配实现。上面计算过程完成后,通过对每一类句子特征相似度进行加权计算,定义了句子整体相似度计算公式,以及,提出了利用逆序数作为分类器的概念,简单有效地区分了种不同的英文地址的表达方式,根据已定义的向量公式,为由句子生成的词向量合理分配权值,生成适当的权值向量计算词形相似度的同时融合词义转换,提高了句子共同特征数量,完善了句子相似度计算过程区分句子不同部分对句义影响比重的差别,突出句子中关键信息的影响比重的同时,将高频词进行合理降权处理,最终提出了合理的权值计算公式实现了地址相似度计算算法,并将该算法移植到地理位置查询系统中,取得了很好的应用效果。
图2是本发明是实施例提供的一种基于自然语言处理的用户地理信息分析与文本挖掘研究装置的结构示意图,该装置适用于执行本发明实施例提供给的一种基于自然语言处理的用户地理信息分析与文本挖掘研究方法。如图2所示,该装置具体可以包括:获取模块201、翻译与转换模块202、权值向量确定模块203、目标地址语句确定模块204和分析与挖掘模块205。
其中,获取模块201,用于获取输入的地址语句;翻译与转换模块202,用于在所述地址语句为英文地址语句时,进行分词处理,获取所述英文地址语句的词向量,根据预先构造的翻译词典,对所述词向量中的每个词元素进行翻译,以将所述每个词元素转换成对应的中文词汇的拼音字符串;权值向量确定模块203,用于针对所述拼音字符串,根据预先计算的词元素索引向量生成对应的权值分配规则,以确定权值向量;目标地址语句确定模块204,用于根据所述权值向量和所述词元素的存在性向量,计算任意两个地址语句的相似度,以确定目标地址语句;分析与挖掘模块205,用于应用所述目标地址语句,分析用户地理信息和挖掘对应的文本信息。
本发明采用以上技术方案,首先获取输入的地址语句;若所述地址语句为英文地址语句,则进行分词处理,获取所述英文地址语句的词向量,根据预先构造的翻译词典,对所述词向量中的每个词元素进行翻译,以将所述每个词元素转换成对应的中文词汇的拼音字符串;针对所述拼音字符串,根据预先计算的词元素索引向量生成对应的权值分配规则,以确定权值向量;根据所述权值向量和所述词元素的存在性向量,计算任意两个地址语句的相似度,以确定目标地址语句;应用所述目标地址语句,分析用户地理信息和挖掘对应的文本信息。这样,不基于中文分词方法,而是考虑用英文进行处理,解析结果以英文表达,通过对英文地址语句进行简单的分词处理即可在词汇这一语言级别上计算句子相似度,同时简化了句子相似度的计算过程,进而使得用户地理信息分析更充分,以及,反应的用户的社群特征的问题更充分。
可选的,还包括转换模块,用于在获取输入的地址语句之后,若所述地址语句为中文地址语句,则将所述中文地址语句转换成拼音字符串。
可选的,目标地址语句确定模块具体用于:
将相似度与预设相似度阈值进行比较,确定大于预设相似度阈值的任意两个地址语句为目标地址语句。
可选的,还包括计算模块,用于根据所述权值向量和所述词元素的存在性向量,计算任意两个地址语句的相似度,以确定目标地址语句,之前,计算所述词元素的存在性向量。
可选的,所述计算模块具体用于:
遍历所述英文地址语句对应的词向量;
判断在所述中文地址语句对应的拼音字符串中是否存在所述词向量;
若是,则将所述词向量确定为存在性向量,并将所述词向量中的词元素值确定为所述词向量在所述拼音字符串中的起始索引位置。
本发明实施例提供的于自然语言处理的用户地理信息分析与文本挖掘研究装置可执行本发明任意实施例提供的于自然语言处理的用户地理信息分析与文本挖掘研究方法,具备执行方法相应的功能模块和有益效果。
本发明实施例还提供一种设备,请参阅图3,图3为一种设备的结构示意图,如图3所示,该设备包括:处理器310,以及与处理器310相连接的存储器320;存储器320用于存储计算机程序,所述计算机程序至少用于执行本发明实施例中的于自然语言处理的用户地理信息分析与文本挖掘研究方法;处理器310用于调用并执行所述存储器中的所述计算机程序,上述于自然语言处理的用户地理信息分析与文本挖掘研究方法至少包括如下步骤:获取输入的地址语句;若所述地址语句为英文地址语句,则进行分词处理,获取所述英文地址语句的词向量,根据预先构造的翻译词典,对所述词向量中的每个词元素进行翻译,以将所述每个词元素转换成对应的中文词汇的拼音字符串;针对所述拼音字符串,根据预先计算的词元素索引向量生成对应的权值分配规则,以确定权值向量;根据所述权值向量和所述词元素的存在性向量,计算任意两个地址语句的相似度,以确定目标地址语句;应用所述目标地址语句,分析用户地理信息和挖掘对应的文本信息。
本发明实施例还提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现如本发明实施例中的于自然语言处理的用户地理信息分析与文本挖掘研究方法中各个步骤,上述于自然语言处理的用户地理信息分析与文本挖掘研究方法至少包括如下步骤:获取输入的地址语句;若所述地址语句为英文地址语句,则进行分词处理,获取所述英文地址语句的词向量,根据预先构造的翻译词典,对所述词向量中的每个词元素进行翻译,以将所述每个词元素转换成对应的中文词汇的拼音字符串;针对所述拼音字符串,根据预先计算的词元素索引向量生成对应的权值分配规则,以确定权值向量;根据所述权值向量和所述词元素的存在性向量,计算任意两个地址语句的相似度,以确定目标地址语句;应用所述目标地址语句,分析用户地理信息和挖掘对应的文本信息。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种基于自然语言处理的用户地理信息分析与文本挖掘研究方法,其特征在于,包括:
获取输入的地址语句;
若所述地址语句为英文地址语句,则进行分词处理,获取所述英文地址语句的词向量,根据预先构造的翻译词典,对所述词向量中的每个词元素进行翻译,以将所述每个词元素转换成对应的中文词汇的拼音字符串;
针对所述拼音字符串,根据预先计算的词元素索引向量生成对应的权值分配规则,以确定权值向量;
根据所述权值向量和所述词元素的存在性向量,计算任意两个地址语句的相似度,以确定目标地址语句;
应用所述目标地址语句,分析用户地理信息和挖掘对应的文本信息。
2.根据权利要求1所述的方法,其特征在于,获取输入的地址语句之后,还包括:
若所述地址语句为中文地址语句,则将所述中文地址语句转换成拼音字符串。
3.根据权利要求1所述的方法,其特征在于,以确定目标地址语句,包括:
将相似度与预设相似度阈值进行比较,确定大于预设相似度阈值的任意两个地址语句为目标地址语句。
4.根据权利要求1所述的方法,其特征在于,根据所述权值向量和所述词元素的存在性向量,计算任意两个地址语句的相似度,以确定目标地址语句,之前,还包括:
计算所述词元素的存在性向量。
5.根据权利要求4所述的方法,其特征在于,计算所述词元素的存在性向量,包括:
遍历所述英文地址语句对应的词向量;
判断在所述中文地址语句对应的拼音字符串中是否存在所述词向量;
若是,则将所述词向量确定为存在性向量,并将所述词向量中的词元素值确定为所述词向量在所述拼音字符串中的起始索引位置。
6.一种基于自然语言处理的用户地理信息分析与文本挖掘研究装置,其特征在于,包括:
获取模块,用于获取输入的地址语句;
翻译与转换模块,用于在所述地址语句为英文地址语句时,进行分词处理,获取所述英文地址语句的词向量,根据预先构造的翻译词典,对所述词向量中的每个词元素进行翻译,以将所述每个词元素转换成对应的中文词汇的拼音字符串;
权值向量确定模块,用于针对所述拼音字符串,根据预先计算的词元素索引向量生成对应的权值分配规则,以确定权值向量;
目标地址语句确定模块,用于根据所述权值向量和所述词元素的存在性向量,计算任意两个地址语句的相似度,以确定目标地址语句;
分析与挖掘模块,用于应用所述目标地址语句,分析用户地理信息和挖掘对应的文本信息。
7.根据权利要求6所述的装置,其特征在于,还包括转换模块,用于在获取输入的地址语句之后,若所述地址语句为中文地址语句,则将所述中文地址语句转换成拼音字符串。
8.根据权利要求6所述的装置,其特征在于,目标地址语句确定模块具体用于:
将相似度与预设相似度阈值进行比较,确定大于预设相似度阈值的任意两个地址语句为目标地址语句。
9.根据权利要求6所述的装置,其特征在于,还包括计算模块,用于根据所述权值向量和所述词元素的存在性向量,计算任意两个地址语句的相似度,以确定目标地址语句,之前,计算所述词元素的存在性向量。
10.根据权利要求9所述的装置,其特征在于,所述计算模块具体用于:
遍历所述英文地址语句对应的词向量;
判断在所述中文地址语句对应的拼音字符串中是否存在所述词向量;
若是,则将所述词向量确定为存在性向量,并将所述词向量中的词元素值确定为所述词向量在所述拼音字符串中的起始索引位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910515695.XA CN110209771A (zh) | 2019-06-14 | 2019-06-14 | 用户地理信息分析与文本挖掘方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910515695.XA CN110209771A (zh) | 2019-06-14 | 2019-06-14 | 用户地理信息分析与文本挖掘方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110209771A true CN110209771A (zh) | 2019-09-06 |
Family
ID=67792857
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910515695.XA Pending CN110209771A (zh) | 2019-06-14 | 2019-06-14 | 用户地理信息分析与文本挖掘方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110209771A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110782955A (zh) * | 2019-10-22 | 2020-02-11 | 中国科学院上海有机化学研究所 | 从研究文献中提取天然产物数据信息的方法及系统 |
CN110851669A (zh) * | 2019-10-17 | 2020-02-28 | 清华大学 | 基于地理位置信息的机构命名排歧方法及装置 |
CN110879832A (zh) * | 2019-10-23 | 2020-03-13 | 支付宝(杭州)信息技术有限公司 | 目标文本检测方法、模型训练方法、装置及设备 |
CN111259113A (zh) * | 2020-01-15 | 2020-06-09 | 腾讯科技(深圳)有限公司 | 文本匹配方法、装置、计算机可读存储介质和计算机设备 |
CN111831816A (zh) * | 2020-07-21 | 2020-10-27 | 虎博网络技术(上海)有限公司 | 核心内容处理方法、装置、电子设备和可读存储介质 |
CN112633283A (zh) * | 2021-03-08 | 2021-04-09 | 广州市玄武无线科技股份有限公司 | 一种英文邮件地址的识别与翻译方法及系统 |
CN112860724A (zh) * | 2020-12-25 | 2021-05-28 | 科讯嘉联信息技术有限公司 | 一种用于人机融合客服系统的自动地址纠偏方法 |
CN113743080A (zh) * | 2021-08-16 | 2021-12-03 | 南京星云数字技术有限公司 | 一种分层级地址文本相似度比对方法、装置及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8145256B2 (en) * | 2004-10-07 | 2012-03-27 | Rpx Corporation | System, method and mobile unit to sense objects or text and retrieve related information |
CN102955772A (zh) * | 2011-08-17 | 2013-03-06 | 北京百度网讯科技有限公司 | 一种基于语义的相似度计算方法和装置 |
CN105224525A (zh) * | 2015-10-12 | 2016-01-06 | 携程计算机技术(上海)有限公司 | 中文地址的翻译方法及系统 |
CN106021223A (zh) * | 2016-05-09 | 2016-10-12 | Tcl集团股份有限公司 | 一种句子相似度的计算方法及系统 |
CN106598959A (zh) * | 2016-12-23 | 2017-04-26 | 北京金山办公软件股份有限公司 | 一种确定双语语句对互译关系方法及系统 |
CN107797995A (zh) * | 2017-11-20 | 2018-03-13 | 语联网(武汉)信息技术有限公司 | 一种中英文片段语料生成方法 |
CN108416062A (zh) * | 2018-03-26 | 2018-08-17 | 国家电网公司客户服务中心 | 一种基于地址匹配技术的电网数据关联方法 |
-
2019
- 2019-06-14 CN CN201910515695.XA patent/CN110209771A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8145256B2 (en) * | 2004-10-07 | 2012-03-27 | Rpx Corporation | System, method and mobile unit to sense objects or text and retrieve related information |
CN102955772A (zh) * | 2011-08-17 | 2013-03-06 | 北京百度网讯科技有限公司 | 一种基于语义的相似度计算方法和装置 |
CN105224525A (zh) * | 2015-10-12 | 2016-01-06 | 携程计算机技术(上海)有限公司 | 中文地址的翻译方法及系统 |
CN106021223A (zh) * | 2016-05-09 | 2016-10-12 | Tcl集团股份有限公司 | 一种句子相似度的计算方法及系统 |
CN106598959A (zh) * | 2016-12-23 | 2017-04-26 | 北京金山办公软件股份有限公司 | 一种确定双语语句对互译关系方法及系统 |
CN107797995A (zh) * | 2017-11-20 | 2018-03-13 | 语联网(武汉)信息技术有限公司 | 一种中英文片段语料生成方法 |
CN108416062A (zh) * | 2018-03-26 | 2018-08-17 | 国家电网公司客户服务中心 | 一种基于地址匹配技术的电网数据关联方法 |
Non-Patent Citations (2)
Title |
---|
程志强等: ""一种基于向量词序的句子相似度算法研究"", 《计算机仿真》 * |
邸书灵: ""基于分词的语句相似度计算的改进"", 《石家庄铁道大学学报(自然科学版)》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110851669A (zh) * | 2019-10-17 | 2020-02-28 | 清华大学 | 基于地理位置信息的机构命名排歧方法及装置 |
CN110782955A (zh) * | 2019-10-22 | 2020-02-11 | 中国科学院上海有机化学研究所 | 从研究文献中提取天然产物数据信息的方法及系统 |
CN110782955B (zh) * | 2019-10-22 | 2023-03-28 | 中国科学院上海有机化学研究所 | 从研究文献中提取天然产物数据信息的方法及系统 |
CN110879832A (zh) * | 2019-10-23 | 2020-03-13 | 支付宝(杭州)信息技术有限公司 | 目标文本检测方法、模型训练方法、装置及设备 |
CN111259113A (zh) * | 2020-01-15 | 2020-06-09 | 腾讯科技(深圳)有限公司 | 文本匹配方法、装置、计算机可读存储介质和计算机设备 |
CN111259113B (zh) * | 2020-01-15 | 2023-09-19 | 腾讯科技(深圳)有限公司 | 文本匹配方法、装置、计算机可读存储介质和计算机设备 |
CN111831816A (zh) * | 2020-07-21 | 2020-10-27 | 虎博网络技术(上海)有限公司 | 核心内容处理方法、装置、电子设备和可读存储介质 |
CN111831816B (zh) * | 2020-07-21 | 2023-06-27 | 虎博网络技术(上海)有限公司 | 核心内容处理方法、装置、电子设备和可读存储介质 |
CN112860724A (zh) * | 2020-12-25 | 2021-05-28 | 科讯嘉联信息技术有限公司 | 一种用于人机融合客服系统的自动地址纠偏方法 |
CN112860724B (zh) * | 2020-12-25 | 2024-04-26 | 科讯嘉联信息技术有限公司 | 一种用于人机融合客服系统的自动地址纠偏方法 |
CN112633283A (zh) * | 2021-03-08 | 2021-04-09 | 广州市玄武无线科技股份有限公司 | 一种英文邮件地址的识别与翻译方法及系统 |
CN113743080A (zh) * | 2021-08-16 | 2021-12-03 | 南京星云数字技术有限公司 | 一种分层级地址文本相似度比对方法、装置及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110209771A (zh) | 用户地理信息分析与文本挖掘方法和装置 | |
Arora et al. | Character level embedding with deep convolutional neural network for text normalization of unstructured data for Twitter sentiment analysis | |
RU2686000C1 (ru) | Извлечение информационных объектов с использованием комбинации классификаторов, анализирующих локальные и нелокальные признаки | |
Mills et al. | Graph-based methods for natural language processing and understanding—A survey and analysis | |
CN103154936A (zh) | 用于自动化文本校正的方法和系统 | |
CN109614620B (zh) | 一种基于HowNet的图模型词义消歧方法和系统 | |
CN113761890B (zh) | 一种基于bert上下文感知的多层级语义信息检索方法 | |
US11170169B2 (en) | System and method for language-independent contextual embedding | |
CN112765956A (zh) | 基于多任务学习的依存句法分析方法及应用 | |
Ren et al. | Detecting the scope of negation and speculation in biomedical texts by using recursive neural network | |
Qiu et al. | ChineseTR: A weakly supervised toponym recognition architecture based on automatic training data generator and deep neural network | |
Barbella et al. | Analogical word sense disambiguation | |
Fuchs | Natural language processing for building code interpretation: systematic literature review report | |
Goel | Developments in The Field of Natural Language Processing. | |
KR20230163983A (ko) | 신경망 모델을 활용한 유사 특허 문헌 추출 방법 및 이를 제공하는 장치 | |
Novák | Coreference Resolution System Not Only for Czech. | |
McTait | Translation patterns, linguistic knowledge and complexity in an approach to EBMT | |
Khoufi et al. | Chunking Arabic texts using conditional random fields | |
CN114970516A (zh) | 数据增强方法及装置、存储介质、电子设备 | |
Talita et al. | Challenges in building domain ontology for minority languages | |
CN108491375A (zh) | 基于CN-DBpedia的实体识别与链接系统和方法 | |
Lee | Natural Language Processing: A Textbook with Python Implementation | |
Baishya et al. | Present state and future scope of Assamese text processing | |
Ledeneva et al. | Recent advances in computational linguistics | |
Li et al. | Sentiment classification of financial microblogs through automatic text summarization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190906 |
|
RJ01 | Rejection of invention patent application after publication |