CN110276023A - Poi变迁事件发现方法、装置、计算设备和介质 - Google Patents

Poi变迁事件发现方法、装置、计算设备和介质 Download PDF

Info

Publication number
CN110276023A
CN110276023A CN201910537388.1A CN201910537388A CN110276023A CN 110276023 A CN110276023 A CN 110276023A CN 201910537388 A CN201910537388 A CN 201910537388A CN 110276023 A CN110276023 A CN 110276023A
Authority
CN
China
Prior art keywords
vector
sentence
poi
training
trained
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910537388.1A
Other languages
English (en)
Other versions
CN110276023B (zh
Inventor
潘禄
梁海金
陈玉光
彭卫华
罗雨
刘远圳
韩翠云
施茜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910537388.1A priority Critical patent/CN110276023B/zh
Publication of CN110276023A publication Critical patent/CN110276023A/zh
Application granted granted Critical
Publication of CN110276023B publication Critical patent/CN110276023B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种POI变迁事件发现方法、装置、计算设备和介质,其中,该方法包括:基于训练语句中各个词语之间的关联性,确定训练语句在训练文本中的第一语句向量;利用预设语言模型,确定训练语句在训练文本中的第二语句向量,以及训练语句中POI在训练文本中的POI向量;将第一语句向量、第二语句向量和POI向量作为输入,将训练语句的POI变迁事件标注结果作为输出,训练POI变迁事件识别模型,以利用POI变迁事件识别模型确定目标语句是否为POI变迁事件语句。本发明实施例可以从海量网络信息中准确与高效地发现POI变迁事件,提高关于确定POI变迁事件的召回率,从而为下游业务提供准确的POI信息。

Description

POI变迁事件发现方法、装置、计算设备和介质
技术领域
本发明实施例涉及互联网信息处理技术领域,尤其涉及一种POI变迁事件发现方法、装置、计算设备和介质。
背景技术
当前网络社交内容(例如微博、网页和公众号等平台上发布的各类信息)中包含了一部分POI(Point of Interest,兴趣点)变迁事件信息,如商场“搬迁”、“暂停营业”或者“营业时间调整”等,这类信息在地图中有着非常重要的作用。例如,用户在检索POI时,如“xx博物馆”,对于已经暂停营业或营业时间调整等信息,如果能够通过强样式提醒用户,便可以减少用户无效出行,同时,也能够提升地图用户的使用体验。但是,社交内容中包含有用的POI变迁事件信息是非常稀少的,存在大量的噪声信息,因此,需要对获取的社交内容进行数据处理,准确提取其中的POI变迁事件信息。
现有方法是通过POI抽取工具提取句子中的POI和触发词(表示具体事件的词语,通常为动词),然后利用语言学工具判断POI和触发词之间是否存在联系,如果存在关联,则确定当前句子为POI变迁事件语句。其中,为了去掉POI与触发词之间无联系的句子,通过语言学工具对POI与触发词进行关联时,需要人工总结各个环节的规则(即人工干预的成分比较多),可能导致POI与触发词之间的关联出错,并且该类方法不具备泛化能力,人工干预也导致现有方法耗时耗力;此外,由于语言的复杂性以及变化性,抽取工具本身也存在对POI和触发词的抽取错误,进一步导致现有方法对POI变迁事件的判断准确性较低,召回率低。
发明内容
本发明实施例提供一种POI变迁事件发现方法、装置、计算设备和介质,以实现从海量网络信息中准确与高效地发现POI变迁事件,提高关于确定POI变迁事件的召回率。
第一方面,本发明实施例提供了一种POI变迁事件发现方法,该方法包括:
基于训练语句中各个词语之间的关联性,确定所述训练语句在训练文本中的第一语句向量;
利用预设语言模型,确定所述训练语句在所述训练文本中的第二语句向量,以及所述训练语句中POI在所述训练文本中的POI向量,其中,所述预设语言模型针对所述训练文本中不同位置的同一词语,确定的词向量各不相同;
将所述第一语句向量、所述第二语句向量和所述POI向量作为输入,将所述训练语句的POI变迁事件标注结果作为输出,训练POI变迁事件识别模型,以利用所述POI变迁事件识别模型确定目标语句是否为POI变迁事件语句。
第二方面,本发明实施例还提供了一种POI变迁事件发现装置,该装置包括:
第一向量确定模块,用于基于训练语句中各个词语之间的关联性,确定所述训练语句在训练文本中的第一语句向量;
第二向量确定模块,用于利用预设语言模型,确定所述训练语句在所述训练文本中的第二语句向量,以及所述训练语句中POI在所述训练文本中的POI向量,其中,所述预设语言模型针对所述训练文本中不同位置的同一词语,确定的词向量各不相同;
模型训练模块,用于将所述第一语句向量、所述第二语句向量和所述POI向量作为输入,将所述训练语句的POI变迁事件标注结果作为输出,训练POI变迁事件识别模型,以利用所述POI变迁事件识别模型确定目标语句是否为POI变迁事件语句。
第三方面,本发明实施例还提供了一种计算设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任一实施例所述的POI变迁事件发现方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任一实施例所述的POI变迁事件发现方法。
本发明实施例通过利用两种语句向量确定方式确定训练语句的向量表示,即基于分词得到的各个词语之间的关联性确定语句向量的方式与利用基于模型的神经网络语言模型(即预设语言模型)确定语句向量的方式相结合,保证了基于深度学习思想训练POI变迁事件识别模型的语句特征的完整性,然后结合训练语句中POI的向量表示,进一步强化训练语句中POI特征,保证了模型训练的准确性,解决了现有技术中对POI变迁事件的判断准确性较低的问题,实现了从海量网络信息中准确与高效地发现POI变迁事件,提高了关于确定POI变迁事件的召回率,从而为下游业务提供准确的POI信息。
附图说明
图1是本发明实施例一提供的POI变迁事件发现方法的流程图;
图2是本发明实施例二提供的POI变迁事件发现方法的流程图;
图3是本发明实施例二提供的POI变迁事件识别模型的训练过程示意图;
图4是本发明实施例三提供的POI变迁事件发现装置的结构示意图;
图5是本发明实施例四提供的一种计算设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一提供的POI变迁事件发现方法的流程图,本实施例可适用于通过对海量网络信息进行挖掘,从中确认出属于描述POI变迁事件的信息的情况。该方法可以由POI变迁事件发现装置来执行,该装置可以采用软件和/或硬件的方式实现,并可集成在任意的计算设备上,包括但不限于服务器。
如图1所示,本实施例提供的POI变迁事件发现方法可以包括:
S110、基于训练语句中各个词语之间的关联性,确定训练语句在训练文本中的第一语句向量。
在基于深度学习思想训练模型之前,需要预先准备训练文本,训练文本可以是任意的社交媒体文本,例如微博、网页和公众号等平台上发布的各类信息文本,对每一个训练文本进行语句拆分,然后人工标注拆分得到的每一个训练语句中是否包含POI变迁事件,即确认训练语句中是否包含POI名称和相关联的触发词,采用人工标注的方式可以保证标注结果的准确性。如果训练语句中包含POI变迁事件,则该训练语句属于描述POI变迁事件的语句(或称为正样本),反之,训练语句不属于描述POI变迁事件的语句(或称为负样本)。
针对每个训练语句,可以通过分词技术得到句子中包括的词语,然后考虑各个词语在语句中的语义关联性,确定每个训练语句在训练文本中的第一语句向量,例如可以使用word2vector等传统语言模型确定。需要说明的是,确定第一语句向量使用的传统语言模型,针对训练文本中不同位置的同一词语,确定的词向量表示是相同的,不同于下文中所使用的预设语言模型。
S120、利用预设语言模型,确定训练语句在训练文本中的第二语句向量,以及训练语句中POI在训练文本中的POI向量,其中,预设语言模型针对训练文本中不同位置的同一词语,确定的词向量各不相同。
其中,预设语言模型包括但不限于BERT语言模型(Bidirectional EncoderRepresentations from Transfoemers,用于语言理解的深度双向预训练转换器)、ELMO语言模型(Embeddings from Language Models,属于多个双向语言模型biLM的多层表示)和ERNIE语言模型(Enhanced Representation from kNowledge IntEgration,知识增强语义表示模型)等基于模型的神经网络语言模型,这类语言模型针对同一训练文本不同位置的同一词语,可以结合具体语句给出不同的向量表示,即实现每个词向量的动态表示。本实施例中所说的词语包括至少一个语言要素,例如对于中文而言,一个词语可以是单个字组成。此外,操作S110和操作S120之间没有严格的执行顺序限定。
可选的,利用预设语言模型,确定训练语句在训练文本中的第二语句向量:
利用预设语言模型,确定训练语句中每个词语在训练文本中的词向量,将每个词语的词向量进行合并,作为训练语句在训练文本中的第二语句向量;
或者
在训练语句的特定位置添加标识词语,利用预设语言模型,确定标识词语在训练文本中的词向量,将标识词语的词向量作为训练语句在训练文本中的第二语句向量。
其中,训练语句的特定位置包括语句的开头或者结尾(在特定位置添加标识词语不能破坏训练语句本身的语义完整性),标识词语可以是预先定义的能够用于区分不同句子的任意词语,例如可以是[SEP]。示例性的,在每个训练语句的开头添加标识词语[SEP],然后将各个训练语句输入预设语言模型中,得到各个训练语句中每个词语的多层向量表示,例如对于BERT语言模型而言,Transformer有12层,合并多层向量或者使用最后一层向量都可以用于表示每个词语当前的特征向量,可以取“[SEP]”位置的词向量作为整个训练语句的编码向量,即第二语句向量。
可选的,利用预设语言模型,确定训练语句中POI在训练文本中的POI向量,包括:
如果训练语句中不包含POI,则将预设替代向量作为训练语句的POI向量;
如果训练语句中包含POI,则提取训练语句中的至少一个POI;
利用预设语言模型对至少一个POI进行编码,得到至少一个POI各自在训练文本中的POI向量,其中,不同POI的POI向量维度相同。
每个训练文本中的训练语句包括两种:包含POI的训练语句和不包含POI的训练语句。如果训练语句中不包含POI,则可以利用预设替代向量作为当前训练语句的POI向量,其中,预设替代向量与训练语句中的其他词向量具有相同的维度,为了保证模型计算的可行性,用来替代POI向量,实质上并不表示任何POI,并且其具体向量表示本实施例不作限定;如果训练语句中包含POI,则利用POI提取工具提取训练语句中的至少一个POI,并将训练语句输入预设语言模型确定POI的向量表示,其中,在能够实现准确提取语句中POI的基础上,POI提取工具可以是现有技术中任意可用的技术。本实施例中,POI是POI变迁事件语句中的重要特征,将POI向量作为模型训练输入的一部分,可以发挥强化训练语句中POI特征的作用,保证模型训练的准确性。
S130、将第一语句向量、第二语句向量和POI向量作为输入,将训练语句的POI变迁事件标注结果作为输出,训练POI变迁事件识别模型,以利用POI变迁事件识别模型确定目标语句是否为POI变迁事件语句。
针对每个训练语句,均采用两种语句向量确定方式确定其语句向量,实现语句向量特征的互补,保证了基于深度学习思想训练POI变迁事件识别模型的语句特征的完整性。目标语句包括社交媒体文本中的语句,可以通过对从互联网上抓取的社交媒体文本进行语句拆分得到。将目标语句输入POI变迁事件识别模型中,确认目标语句是否为用于描述POI变迁事件的语句,如果是,则可以将识别出的POI变迁事件语句作为处理对象,进一步提取出POI变迁事件,为下游业务提供准确的POI信息。例如,在地图制作过程或者POI信息搜索过程中,可以将识别到的POI变迁事件及时用于POI数据的更新,为用户提供准确的POI信息,使得用户可以实时掌握POI的状态变化信息,减少用户的无效出行,提升用户的地图使用体验或者搜索体验。通过利用POI变迁事件识别模型对社交媒体文本中的语句进行识别分类,可以实现对社交媒体文本的有效筛选,减少针对海量网络信息的数据处理量,提高数据挖掘效率。
本实施例的技术方案通过利用两种语句向量确定方式确定训练语句的向量表示,即基于分词得到的各个词语之间的关联性确定语句向量的方式与利用基于模型的神经网络语言模型(即预设语言模型)确定语句向量的方式相结合,保证了基于深度学习思想训练POI变迁事件识别模型的语句特征的完整性,然后结合训练语句中POI的向量表示,进一步强化训练语句中POI特征,保证了模型训练的准确性,解决了现有技术中对POI变迁事件的判断准确性较低的问题,实现了从海量网络信息中准确与高效地发现POI变迁事件,提高了关于确定POI变迁事件的召回率,从而为下游业务提供准确的POI信息,并且,本实施例方案具有较高的泛化能力,能够适用于对任意类型的社交媒体文本中的语句识别,识别过程不需要人为参与。
实施例二
图2是本发明实施例二提供的POI变迁事件发现方法的流程图,本实施例是在上述实施例的基础上进一步进行优化。如图2所示,该方法可以包括:
S210、对训练语句进行分词,并利用词向量分析模型确定经分词得到的每个词语在训练文本中的词向量、位置向量和词性向量。
本实施例中,训练语句经过分词得到的每个词语的向量表示,由三部分向量拼接而成:词向量(Word Embeddings)、位置向量(Position Embedding)和词性向量(POSEmbedding)。其中,词向量可以利用预先训练的无监督模型得到,例如word2vector模型等,该无监督模型可以是基于已有的开源词向量或者自行构建的训练语料训练得到,训练语料包括网络社交媒体文本中的标题和正文;位置向量表示每个词语在训练文本的位置,可以是当前词语与潜在POI事件主体(包括潜在实体和潜在事件触发词)相对位置的向量表示,例如当前词语是训练语句中的第4个词,训练语句中的POI实体在句子中的位置是7,当前词语相对于该POI实体的位置是-4,然后将-4映射到一个固定维度的正态分布向量上,从而得到当前词语的位置向量,不同的数字映射为不同的向量;词性向量指将每个词语的词性映射为一个多维向量,相同的词性使用相同的向量初始化。
S220、基于词向量、位置向量和词性向量,通过考虑各个词语在训练语句中的关联性,确定训练语句在训练文本中的第一语句向量。
通过考虑各个词语之间的关联性,可以保证训练语句的语义正确性。
可选的,基于词向量、位置向量和词性向量,通过考虑各个词语在训练语句中的关联性,确定训练语句在训练文本中的第一语句向量,包括:
基于词向量、位置向量和词性向量,在卷积层中采用预设数量的卷积核进行卷积计算,提取训练语句在训练文本中的局部特征;
对提取的局部特征进行池化,并对池化结果进行非线性变换,得到训练语句在训练文本中的第一语句向量。
图3以卷积神经网络为例,示出了本实施例提供的POI变迁事件识别模型的训练过程的一种示意图,如图3所示,在输入层中输入训练语句中每个词语的词向量、位置向量和词性向量;在卷积层中通过多个卷积核(Feature Map)提取局部特征,同时避免网络中参数过多,本实施例中可以使用卷积窗口为3的卷积层提取特征,提取的特征数量与预先定义的参数有关,并且,本实施例可以使用等长卷积,卷积结果与输入的宽度一致;继续对卷积特征(即提取的局部特征)进行池化,池化的目的是找出相同位置处最重要的特征信息,本实施例可以使用最大池化操作,即相同维度取最大值,然后输出池化后的结果;在全连接层中,对池化后的结果做非线性变换得到训练语句在训练文本中的第一语句向量,该第一语句向量中考虑了各个词语在训练语句中的语义关联性,也可以称为语句上下文向量(该特征表示了整个语句的上下文特征),其中,非线性变换包括但不限于利用tanh等激活函数进行非线性变换。
S230、利用预设语言模型,确定训练语句在训练文本中的第二语句向量,以及训练语句中POI在训练文本中的POI向量,其中,预设语言模型针对训练文本中不同位置的同一词语,确定的词向量各不相同。
继续如图3所示,利用预设语言模型,确定训练语句在训练文本中的第二语句向量,并使用POI抽取工具从训练语句中抽取出POI,然后对基于预设语言模型得到的POI编码向量进行池化,得到最终的POI向量表示。POI是判断训练语句是否包含POI事件的重要信息。
S240、将第一语句向量、第二语句向量和POI向量作为输入,将训练语句的POI变迁事件标注结果作为输出,训练POI变迁事件识别模型,以利用POI变迁事件识别模型确定目标语句是否为POI变迁事件语句。
最后,将第一语句向量、第二语句向量和POI向量拼接在一起,形成多维向量,作为全连接层的输入,输出层的输出是预先定义的语句类别:POI变迁事件语句和非POI变迁事件语句。
本实施例的技术方案通过利用两种语句向量确定方式确定训练语句的向量表示,即基于分词得到的各个词语之间的关联性确定语句向量的方式与利用基于模型的神经网络语言模型(即预设语言模型)确定语句向量的方式相结合,保证了基于深度学习思想训练POI变迁事件识别模型的语句特征的完整性,然后结合训练语句中POI的向量表示,进一步强化训练语句中POI特征,保证了模型训练的准确性,解决了现有技术中对POI变迁事件的判断准确性较低的问题,实现了从海量网络信息中准确与高效地发现POI变迁事件,提高了关于确定POI变迁事件的召回率,从而为下游业务提供准确的POI信息。
实施例三
图4是本发明实施例三提供的POI变迁事件发现装置的结构示意图,本实施例可适用于通过对海量网络信息进行挖掘,从中确认出属于描述POI变迁事件的信息的情况。该装置可以采用软件和/或硬件的方式实现,并可集成在任意的计算设备上,包括但不限于服务器。
如图4所示,本实施例提供的POI变迁事件发现装置可以包括第一向量确定模块310、第二向量确定模块320和模型训练模块330,其中:
第一向量确定模块310,用于基于训练语句中各个词语之间的关联性,确定训练语句在训练文本中的第一语句向量;
第二向量确定模块320,用于利用预设语言模型,确定训练语句在训练文本中的第二语句向量,以及训练语句中POI在训练文本中的POI向量,其中,预设语言模型针对训练文本中不同位置的同一词语,确定的词向量各不相同;
模型训练模块330,用于将第一语句向量、第二语句向量和POI向量作为输入,将训练语句的POI变迁事件标注结果作为输出,训练POI变迁事件识别模型,以利用POI变迁事件识别模型确定目标语句是否为POI变迁事件语句。
可选的,第二向量确定模块320包括语句向量确定单元,语句向量确定单元用于:
利用预设语言模型,确定训练语句中每个词语在训练文本中的词向量,将每个词语的词向量进行合并,作为训练语句在训练文本中的第二语句向量;
或者
在训练语句的特定位置添加标识词语,利用预设语言模型,确定标识词语在训练文本中的词向量,将标识词语的词向量作为训练语句在训练文本中的第二语句向量。
可选的,第二向量确定模块320包括POI向量确定单元,POI向量确定单元用于:
如果训练语句中不包含POI,则将预设替代向量作为训练语句的POI向量;
如果训练语句中包含POI,则提取训练语句中的至少一个POI;
利用预设语言模型对至少一个POI进行编码,得到至少一个POI各自在训练文本中的POI向量,其中,不同POI的POI向量维度相同。
可选的,第一向量确定模块310包括:
分词单元,用于对训练语句进行分词,并利用词向量分析模型确定经分词得到的每个词语在训练文本中的词向量、位置向量和词性向量;
关联单元,用于基于词向量、位置向量和词性向量,通过考虑各个词语在训练语句中的关联性,确定训练语句在训练文本中的第一语句向量。
可选的,关联单元包括:
卷积计算子单元,用于基于词向量、位置向量和词性向量,在卷积层中采用预设数量的卷积核进行卷积计算,提取训练语句在训练文本中的局部特征;
池化与非线性变换子单元,用于对提取的局部特征进行池化,并对池化结果进行非线性变换,得到训练语句在训练文本中的第一语句向量。
可选的,模型训练模块330中的目标语句包括网络媒体文本中的语句。
本发明实施例所提供的POI变迁事件发现装置可执行本发明任意实施例所提供的POI变迁事件发现方法,具备执行方法相应的功能模块和有益效果。本实施例中未详尽描述的内容可以参考本发明任意方法实施例中的描述。
实施例四
图5是本发明实施例四提供的一种计算设备的结构示意图。图5示出了适于用来实现本发明实施方式的示例性计算设备412的框图。图5显示的计算设备412仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。计算设备412可以是任意的具有计算能力的设备,包括但不限于服务器。
如图5所示,计算设备412以通用计算设备的形式表现。计算设备412的组件可以包括但不限于:一个或者多个处理器416,存储装置428,连接不同系统组件(包括存储装置428和处理器416)的总线418。
总线418表示几类总线结构中的一种或多种,包括存储装置总线或者存储装置控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry SubversiveAlliance,ISA)总线,微通道体系结构(Micro Channel Architecture,MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics Standards Association,VESA)局域总线以及外围组件互连(Peripheral Component Interconnect,PCI)总线。
计算设备412典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算设备412访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储装置428可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory,RAM)430和/或高速缓存存储器432。计算设备412可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统434可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘,例如只读光盘(Compact Disc Read-Only Memory,CD-ROM),数字视盘(Digital Video Disc-Read Only Memory,DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线418相连。存储装置428可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块442的程序/实用工具440,可以存储在例如存储装置428中,这样的程序模块442包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块442通常执行本发明所描述的实施例中的功能和/或方法。
计算设备412也可以与一个或多个外部设备414(例如键盘、指向终端、显示器424等)通信,还可与一个或者多个使得用户能与该计算设备412交互的终端通信,和/或与使得该计算设备412能与一个或多个其它计算终端进行通信的任何终端(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口422进行。并且,计算设备412还可以通过网络适配器420与一个或者多个网络(例如局域网(Local Area Network,LAN),广域网(Wide Area Network,WAN)和/或公共网络,例如因特网)通信。如图5所示,网络适配器420通过总线418与计算设备412的其它模块通信。应当明白,尽管图中未示出,可以结合计算设备412使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks,RAID)系统、磁带驱动器以及数据备份存储系统等。
处理器416通过运行存储在存储装置428中的程序,从而执行各种功能应用以及数据处理,例如实现本发明任意实施例所提供的POI变迁事件发现方法,该方法可以包括:
基于训练语句中各个词语之间的关联性,确定训练语句在训练文本中的第一语句向量;
利用预设语言模型,确定训练语句在训练文本中的第二语句向量,以及训练语句中POI在训练文本中的POI向量,其中,预设语言模型针对训练文本中不同位置的同一词语,确定的词向量各不相同;
将第一语句向量、第二语句向量和POI向量作为输入,将训练语句的POI变迁事件标注结果作为输出,训练POI变迁事件识别模型,以利用POI变迁事件识别模型确定目标语句是否为POI变迁事件语句。
实施例五
本发明实施例五还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所提供的POI变迁事件发现方法,该方法可以包括:
基于训练语句中各个词语之间的关联性,确定训练语句在训练文本中的第一语句向量;
利用预设语言模型,确定训练语句在训练文本中的第二语句向量,以及训练语句中POI在训练文本中的POI向量,其中,预设语言模型针对训练文本中不同位置的同一词语,确定的词向量各不相同;
将第一语句向量、第二语句向量和POI向量作为输入,将训练语句的POI变迁事件标注结果作为输出,训练POI变迁事件识别模型,以利用POI变迁事件识别模型确定目标语句是否为POI变迁事件语句。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或终端上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (14)

1.一种POI变迁事件发现方法,其特征在于,包括:
基于训练语句中各个词语之间的关联性,确定所述训练语句在训练文本中的第一语句向量;
利用预设语言模型,确定所述训练语句在所述训练文本中的第二语句向量,以及所述训练语句中POI在所述训练文本中的POI向量,其中,所述预设语言模型针对所述训练文本中不同位置的同一词语,确定的词向量各不相同;
将所述第一语句向量、所述第二语句向量和所述POI向量作为输入,将所述训练语句的POI变迁事件标注结果作为输出,训练POI变迁事件识别模型,以利用所述POI变迁事件识别模型确定目标语句是否为POI变迁事件语句。
2.根据权利要求1所述的方法,其特征在于,所述利用预设语言模型,确定所述训练语句在所述训练文本中的第二语句向量:
利用所述预设语言模型,确定所述训练语句中每个词语在所述训练文本中的词向量,将所述每个词语的词向量进行合并,作为所述训练语句在所述训练文本中的第二语句向量;
或者
在所述训练语句的特定位置添加标识词语,利用所述预设语言模型,确定所述标识词语在所述训练文本中的词向量,将所述标识词语的词向量作为所述训练语句在所述训练文本中的第二语句向量。
3.根据权利要求1所述的方法,其特征在于,所述利用预设语言模型,确定所述训练语句中POI在所述训练文本中的POI向量,包括:
如果所述训练语句中不包含POI,则将预设替代向量作为所述训练语句的POI向量;
如果所述训练语句中包含POI,则提取所述训练语句中的至少一个POI;
利用所述预设语言模型对所述至少一个POI进行编码,得到所述至少一个POI各自在所述训练文本中的POI向量,其中,不同POI的POI向量维度相同。
4.根据权利要求1所述的方法,其特征在于,所述基于训练语句中各个词语之间的关联性,确定所述训练语句在训练文本中的第一语句向量包括:
对所述训练语句进行分词,并利用词向量分析模型确定经分词得到的每个词语在所述训练文本中的词向量、位置向量和词性向量;
基于所述词向量、位置向量和词性向量,通过考虑各个词语在所述训练语句中的关联性,确定所述训练语句在所述训练文本中的第一语句向量。
5.根据权利要求4所述的方法,其特征在于,基于所述词向量、位置向量和词性向量,通过考虑各个词语在所述训练语句中的关联性,确定所述训练语句在所述训练文本中的第一语句向量,包括:
基于所述词向量、位置向量和词性向量,在卷积层中采用预设数量的卷积核进行卷积计算,提取所述训练语句在所述训练文本中的局部特征;
对提取的局部特征进行池化,并对池化结果进行非线性变换,得到所述训练语句在所述训练文本中的第一语句向量。
6.根据权利要求1所述的方法,其特征在于,所述目标语句包括网络媒体文本中的语句。
7.一种POI变迁事件发现装置,其特征在于,包括:
第一向量确定模块,用于基于训练语句中各个词语之间的关联性,确定所述训练语句在训练文本中的第一语句向量;
第二向量确定模块,用于利用预设语言模型,确定所述训练语句在所述训练文本中的第二语句向量,以及所述训练语句中POI在所述训练文本中的POI向量,其中,所述预设语言模型针对所述训练文本中不同位置的同一词语,确定的词向量各不相同;
模型训练模块,用于将所述第一语句向量、所述第二语句向量和所述POI向量作为输入,将所述训练语句的POI变迁事件标注结果作为输出,训练POI变迁事件识别模型,以利用所述POI变迁事件识别模型确定目标语句是否为POI变迁事件语句。
8.根据权利要求7所述的装置,其特征在于,所述第二向量确定模块包括语句向量确定单元,所述语句向量确定单元用于:
利用所述预设语言模型,确定所述训练语句中每个词语在所述训练文本中的词向量,将所述每个词语的词向量进行合并,作为所述训练语句在所述训练文本中的第二语句向量;
或者
在所述训练语句的特定位置添加标识词语,利用所述预设语言模型,确定所述标识词语在所述训练文本中的词向量,将所述标识词语的词向量作为所述训练语句在所述训练文本中的第二语句向量。
9.根据权利要求7所述的装置,其特征在于,所述第二向量确定模块包括POI向量确定单元,所述POI向量确定单元用于:
如果所述训练语句中不包含POI,则将预设替代向量作为所述训练语句的POI向量;
如果所述训练语句中包含POI,则提取所述训练语句中的至少一个POI;
利用所述预设语言模型对所述至少一个POI进行编码,得到所述至少一个POI各自在所述训练文本中的POI向量,其中,不同POI的POI向量维度相同。
10.根据权利要求7所述的装置,其特征在于,所述第一向量确定模块包括:
分词单元,用于对所述训练语句进行分词,并利用词向量分析模型确定经分词得到的每个词语在所述训练文本中的词向量、位置向量和词性向量;
关联单元,用于基于所述词向量、位置向量和词性向量,通过考虑各个词语在所述训练语句中的关联性,确定所述训练语句在所述训练文本中的第一语句向量。
11.根据权利要求10所述的装置,其特征在于,所述关联单元包括:
卷积计算子单元,用于基于所述词向量、位置向量和词性向量,在卷积层中采用预设数量的卷积核进行卷积计算,提取所述训练语句在所述训练文本中的局部特征;
池化与非线性变换子单元,用于对提取的局部特征进行池化,并对池化结果进行非线性变换,得到所述训练语句在所述训练文本中的第一语句向量。
12.根据权利要求7所述的装置,其特征在于,所述目标语句包括网络媒体文本中的语句。
13.一种计算设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的POI变迁事件发现方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的POI变迁事件发现方法。
CN201910537388.1A 2019-06-20 2019-06-20 Poi变迁事件发现方法、装置、计算设备和介质 Active CN110276023B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910537388.1A CN110276023B (zh) 2019-06-20 2019-06-20 Poi变迁事件发现方法、装置、计算设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910537388.1A CN110276023B (zh) 2019-06-20 2019-06-20 Poi变迁事件发现方法、装置、计算设备和介质

Publications (2)

Publication Number Publication Date
CN110276023A true CN110276023A (zh) 2019-09-24
CN110276023B CN110276023B (zh) 2021-04-02

Family

ID=67961165

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910537388.1A Active CN110276023B (zh) 2019-06-20 2019-06-20 Poi变迁事件发现方法、装置、计算设备和介质

Country Status (1)

Country Link
CN (1) CN110276023B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110851738A (zh) * 2019-10-28 2020-02-28 百度在线网络技术(北京)有限公司 获取poi状态信息的方法、装置、设备和计算机存储介质
CN111078886A (zh) * 2019-12-18 2020-04-28 成都迪普曼林信息技术有限公司 基于dmcnn的特殊事件提取系统
CN111191439A (zh) * 2019-12-16 2020-05-22 浙江大搜车软件技术有限公司 自然语句生成的方法、装置、计算机设备和存储介质
CN112182427A (zh) * 2020-08-24 2021-01-05 汉海信息技术(上海)有限公司 数据处理方法、装置、电子设备及存储介质
CN112905869A (zh) * 2021-03-26 2021-06-04 北京儒博科技有限公司 语言模型的自适应训练方法、装置、存储介质及设备
CN113326449A (zh) * 2021-05-27 2021-08-31 北京百度网讯科技有限公司 预测交通流量的方法、装置、电子设备和介质
CN113515938A (zh) * 2021-05-12 2021-10-19 平安国际智慧城市科技股份有限公司 语言模型训练方法、装置、设备及计算机可读存储介质
CN114218957A (zh) * 2022-02-22 2022-03-22 阿里巴巴(中国)有限公司 行政区划变迁信息的确定方法、装置、设备及存储介质
WO2022174552A1 (zh) * 2021-02-22 2022-08-25 北京百度网讯科技有限公司 获取poi状态信息的方法及装置
CN116842123A (zh) * 2023-08-28 2023-10-03 北京高德云信科技有限公司 搬迁位置预测方法、地图更新方法、装置及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105260361A (zh) * 2015-10-28 2016-01-20 南京邮电大学 一种生物医学事件的触发词标注系统及方法
US20170031895A1 (en) * 2015-06-03 2017-02-02 Workday, Inc. Address parsing system
CN108647582A (zh) * 2018-04-19 2018-10-12 河南科技学院 一种复杂动态环境下目标行为识别与预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170031895A1 (en) * 2015-06-03 2017-02-02 Workday, Inc. Address parsing system
CN105260361A (zh) * 2015-10-28 2016-01-20 南京邮电大学 一种生物医学事件的触发词标注系统及方法
CN108647582A (zh) * 2018-04-19 2018-10-12 河南科技学院 一种复杂动态环境下目标行为识别与预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王红斌等: "基于word2vec和依存分析的事件识别研究", 《软件》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11709999B2 (en) 2019-10-28 2023-07-25 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for acquiring POI state information, device and computer storage medium
CN110851738A (zh) * 2019-10-28 2020-02-28 百度在线网络技术(北京)有限公司 获取poi状态信息的方法、装置、设备和计算机存储介质
WO2021082397A1 (zh) * 2019-10-28 2021-05-06 百度在线网络技术(北京)有限公司 获取poi状态信息的方法、装置、设备和计算机存储介质
CN111191439A (zh) * 2019-12-16 2020-05-22 浙江大搜车软件技术有限公司 自然语句生成的方法、装置、计算机设备和存储介质
CN111078886A (zh) * 2019-12-18 2020-04-28 成都迪普曼林信息技术有限公司 基于dmcnn的特殊事件提取系统
CN111078886B (zh) * 2019-12-18 2023-04-18 成都迪普曼林信息技术有限公司 基于dmcnn的特殊事件提取系统
CN112182427A (zh) * 2020-08-24 2021-01-05 汉海信息技术(上海)有限公司 数据处理方法、装置、电子设备及存储介质
WO2022174552A1 (zh) * 2021-02-22 2022-08-25 北京百度网讯科技有限公司 获取poi状态信息的方法及装置
US11977574B2 (en) 2021-02-22 2024-05-07 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for acquiring POI state information
CN112905869A (zh) * 2021-03-26 2021-06-04 北京儒博科技有限公司 语言模型的自适应训练方法、装置、存储介质及设备
CN113515938A (zh) * 2021-05-12 2021-10-19 平安国际智慧城市科技股份有限公司 语言模型训练方法、装置、设备及计算机可读存储介质
CN113515938B (zh) * 2021-05-12 2023-10-20 平安国际智慧城市科技股份有限公司 语言模型训练方法、装置、设备及计算机可读存储介质
CN113326449A (zh) * 2021-05-27 2021-08-31 北京百度网讯科技有限公司 预测交通流量的方法、装置、电子设备和介质
CN113326449B (zh) * 2021-05-27 2023-07-25 北京百度网讯科技有限公司 预测交通流量的方法、装置、电子设备和介质
CN114218957B (zh) * 2022-02-22 2022-11-18 阿里巴巴(中国)有限公司 行政区划变迁信息的确定方法、装置、设备及存储介质
CN114218957A (zh) * 2022-02-22 2022-03-22 阿里巴巴(中国)有限公司 行政区划变迁信息的确定方法、装置、设备及存储介质
CN116842123A (zh) * 2023-08-28 2023-10-03 北京高德云信科技有限公司 搬迁位置预测方法、地图更新方法、装置及设备
CN116842123B (zh) * 2023-08-28 2023-11-28 北京高德云信科技有限公司 搬迁位置预测方法、地图更新方法、装置及设备

Also Published As

Publication number Publication date
CN110276023B (zh) 2021-04-02

Similar Documents

Publication Publication Date Title
CN110276023A (zh) Poi变迁事件发现方法、装置、计算设备和介质
CN106940788B (zh) 智能评分方法及装置、计算机设备及计算机可读介质
CN107992596A (zh) 一种文本聚类方法、装置、服务器和存储介质
CN109933802A (zh) 图文匹配方法、装置及存储介质
CN115035538A (zh) 文本识别模型的训练方法、文本识别方法及装置
CN109599095A (zh) 一种语音数据的标注方法、装置、设备和计算机存储介质
CN108563655A (zh) 基于文本的事件识别方法和装置
CN108108468A (zh) 一种基于概念和文本情感的短文本情感分析方法和装置
CN114490998B (zh) 文本信息的抽取方法、装置、电子设备和存储介质
CN108121697A (zh) 一种文本改写的方法、装置、设备和计算机存储介质
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN108932218A (zh) 一种实例扩展方法、装置、设备和介质
CN109815500A (zh) 非结构化公文的管理方法、装置、计算机设备及存储介质
CN110377694A (zh) 标注文本对逻辑关系的方法、装置、设备和计算机存储介质
CN110222139A (zh) 道路实体数据去重方法、装置、计算设备和介质
CN108268443B (zh) 确定话题点转移以及获取回复文本的方法、装置
CN110020429A (zh) 语义识别方法及设备
CN109597881A (zh) 匹配度确定方法、装置、设备和介质
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN108932233A (zh) 翻译文生成方法、翻译文生成装置以及翻译文生成程序
CN110941638B (zh) 应用分类规则库构建方法、应用分类方法及装置
CN110362688A (zh) 试题标注方法、装置、设备及计算机可读存储介质
CN111563381A (zh) 文本处理方法和装置
CN112597748B (zh) 语料生成方法、装置、设备及计算机可读存储介质
CN115346095A (zh) 视觉问答方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant