CN107436922B - 文本标签生成方法和装置 - Google Patents

文本标签生成方法和装置 Download PDF

Info

Publication number
CN107436922B
CN107436922B CN201710541481.0A CN201710541481A CN107436922B CN 107436922 B CN107436922 B CN 107436922B CN 201710541481 A CN201710541481 A CN 201710541481A CN 107436922 B CN107436922 B CN 107436922B
Authority
CN
China
Prior art keywords
label
text
candidate
types
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710541481.0A
Other languages
English (en)
Other versions
CN107436922A (zh
Inventor
刘家辰
何伯磊
肖欣延
吕雅娟
费晓旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201710541481.0A priority Critical patent/CN107436922B/zh
Publication of CN107436922A publication Critical patent/CN107436922A/zh
Priority to US16/018,983 priority patent/US10838997B2/en
Application granted granted Critical
Publication of CN107436922B publication Critical patent/CN107436922B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Abstract

本发明提出一种文本标签生成方法和装置,通过针对目标文本分别采用各标签类型对应的策略进行关键词提取,以得到所述目标文本各标签类型的候选标签之后,对各标签类型的候选标签,在不同标签类型之间进行交叉验证,最终根据经过验证的候选标签,确定出目标文本的目标标签。由于分别针对包括实体词、片段文本和/或话题在内的不同标签类型,进行标签提取,并进行交叉验证,从而提高了标签提取的准确性,解决了现有技术中标签提取的准确性不高的技术问题。

Description

文本标签生成方法和装置
技术领域
本发明涉及人工智能技术领域,尤其涉及一种文本标签生成方法和装置。
背景技术
对于论文、新闻等各类文本的标签抽取,具体是指从文本中提取出能够反映出文本内容,以及读者兴趣的多个标签。这里提取出的标签可以作为比摘要更加精炼的词语或片段,有助于读者快速了解到全文的内容。对于文本的分类、推荐、关联具有重要的作用。
但是,现有技术中仅仅是依据词频等进行标签提取,提取出的标签准确度不高。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种文本标签生成方法,以解决现有技术中提取出的标签准确度不高的技术问题。
本发明的第二个目的在于提出一种文本标签生成装置。
本发明的第三个目的在于提出一种计算机设备。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
本发明的第五个目的在于提出一种计算机程序产品。
为达上述目的,本发明第一方面实施例提出了一种文本标签生成方法,包括:
针对目标文本分别采用各标签类型对应的策略进行关键词提取,以得到所述目标文本各标签类型的候选标签;所述标签类型包括实体词、片段文本和/或话题;
对各标签类型的候选标签,在不同标签类型之间进行交叉验证;
根据经过验证的候选标签,确定出所述目标文本的目标标签。
本发明实施例的文本标签生成方法,通过针对目标文本分别采用各标签类型对应的策略进行关键词提取,以得到所述目标文本各标签类型的候选标签之后,对各标签类型的候选标签,在不同标签类型之间进行交叉验证,最终根据经过验证的候选标签,确定出目标文本的目标标签。由于分别针对包括实体词、片段文本和/或话题在内的不同标签类型,进行标签提取,并进行交叉验证,从而提高了标签提取的准确性,解决了现有技术中标签提取的准确性不高的技术问题。
为达上述目的,本发明第二方面实施例提出了一种文本标签生成装置,包括:
提取模块,用于针对目标文本分别采用各标签类型对应的策略进行关键词提取,以得到所述目标文本各标签类型的候选标签;所述标签类型包括实体词、片段文本和/或话题;
验证模块,用于对各标签类型的候选标签,在不同标签类型之间进行交叉验证;
确定模块,用于根据经过验证的候选标签,确定出所述目标文本的目标标签。
本发明实施例的文本标签生成装置,通过针对目标文本分别采用各标签类型对应的策略进行关键词提取,以得到所述目标文本各标签类型的候选标签之后,对各标签类型的候选标签,在不同标签类型之间进行交叉验证,最终根据经过验证的候选标签,确定出目标文本的目标标签。由于分别针对包括实体词、片段文本和/或话题在内的不同标签类型,进行标签提取,并进行交叉验证,从而提高了标签提取的准确性,解决了现有技术中标签提取的准确性不高的技术问题。
为达上述目的,本发明第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现第一方面所述的文本标签生成方法。
为了实现上述目的,本发明第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的文本标签生成方法。
为了实现上述目的,本发明第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行第一方面所述的文本标签生成方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例所提供的一种文本标签生成方法的流程示意图;
图2为本发明实施例所提供的另一种文本标签生成方法的流程示意图;
图3为应用场景采用的标签生成方法的流程框图;
图4为标签生成过程的示意图;
图5为本发明实施例提供的一种文本标签生成装置的结构示意图;以及
图6示出了适于用来实现本申请实施方式的示例性计算机设备的框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的文本标签生成方法和装置。
图1为本发明实施例所提供的一种文本标签生成方法的流程示意图。
针对这一问题,本发明实施例提供了文本标签生成方法,如图1所示,该方法包括以下步骤:
步骤101,针对目标文本分别采用各标签类型对应的策略进行关键词提取,以得到目标文本各标签类型的候选标签。
其中,标签类型包括实体词、片段文本和/或话题。
可选地,若所述标签类型为实体词,对所述目标文本进行分词,得到各词条;进而提取所述各词条的词特征;根据所述词特征,对各词条进行筛选,以得到所述实体词的候选标签。具体来说,根据所述词特征,匹配预设的词过滤策略,以对各词条进行筛选;和/或,将各词条的词特征,输入预先训练的分类模型,以根据分类结果判断是否筛选掉对应的词条。其中,分类模型,预先学习得到所述词特征与是否作为标签的分类结果之间的对应关系。
或者,可选地,若所述标签类型为片段文本,对所述目标文本进行分词,得到各短语;根据各短语所包含的词条,匹配短语过滤策略以对各短语进行筛选,以得到片段文本的候选标签。
或者,可选地,若所述标签类型为话题,将与所述目标文本匹配的热门话题作为话题的候选标签。
步骤102,对各标签类型的候选标签,在不同标签类型之间进行交叉验证。
具体地,根据不同标签类型的候选标签之间的重合字符,对候选标签进行筛选,以保留匹配读者兴趣点的候选标签。
步骤103,根据经过验证的候选标签,确定出目标文本的目标标签。
具体地,针对经过验证的候选标签,根据相对所述目标文本的语义重要性进行排序;根据所述排序,确定出所述目标标签。
本实施例中,通过针对目标文本分别采用各标签类型对应的策略进行关键词提取,以得到所述目标文本各标签类型的候选标签之后,对各标签类型的候选标签,在不同标签类型之间进行交叉验证,最终根据经过验证的候选标签,确定出目标文本的目标标签。由于分别针对包括实体词、片段文本和/或话题在内的不同标签类型,进行标签提取,并进行交叉验证,从而提高了标签提取的准确性,解决了现有技术中标签提取的准确性不高的技术问题。
为了清楚说明上一实施例,本实施例提供了另一种文本标签生成方法,图2为本发明实施例所提供的另一种文本标签生成方法的流程示意图。
如图2所示,该文本标签生成方法可以包括以下步骤:
步骤201,从目标文本中进行标签类型为实体词的标签提取,得到实体词的候选标签。
具体地,首先需要针对实体词进行召回。对目标文本的标题和正文进行分词,得到各词条。在得到各词条之后,可以对各词条进行包括词频统计在内的各词条的词特征提取。这里的词特征包括了词频、词性(如形容词、名词等)、命名实体(Named EntityRecognition,NER)类别(如人名、歌名、书名、水果等)、词频-逆向文件频率(termfrequency–inverse document frequency,TF-IDF)、语法依存关系(如定语、主语、宾语等)、语义角色(如修饰成分、主干等)。
其次,针对实体词进行筛选。具体来说,对各词条,根据词频、词性、命名实体类别、TF-IDF、语法依存关系和语义角色等特征,匹配词过滤策略,或是输入分类模型,以确定是否筛选掉当前词条。这一步骤的目的是过滤掉明显不适合作为标签的词条。
例如,词过滤策略具体可以包括:
<1>动词不作为实体词的候选标签;
<2>低频,具体可以为全文中词频小于3,以及成语不作为实体词的候选标签;
<3>如果文章标题包含人名,则正文中的人名不作为实体词的候选标签;
步骤202,从目标文本中进行标签类型为片段文本的标签提取,得到片段文本的候选标签。
具体地,首先,通过对目标文本进行分词,进行短语召回。具体来说,基于标题和正文的分词结果,对包含2-5个单字的短语进行召回,得的各短语。在本步骤中仅通过停用词边界等方式做简单筛选。
其次,对各短语进行筛选,这里主要有内部特征和外部资源两种方式。
作为一种可能的实现方式,为内部特征方式,也就是说,可以根据各短语所包含的词条,匹配短语过滤策略以对各短语进行筛选,以得到片段文本的候选标签。短语过滤策略用于指示短语内部多个词条的词性,和/或短语中各词条词性的组合方式是否合理等。
例如,短语过滤策略包括:
<1>短语的词性若为“人名+人名”类型,并且长度大于三个字不作为片段文本的候选标签;
<2>仅包含一个“歌曲”类型的单词,并且长度小于四个字不作为片段文本的候选标签;
<3>不是纯英文、长度大于4并且只包含一个“人名”类型的单词不作为片段文本的候选标签;
<4>仅包含一个“文学作品”类型的单词,并且长度小于三个字不作为片段文本的候选标签。
作为另一种可能的实现方式,根据外部资源包括搜索引擎中用户搜索日志、知识图谱等进行筛选。由于外部资源包括搜索引擎中用户搜索日志、知识图谱等已知意义明显的短语数据,这些数据可用于校验分词得到的短语是否能够具有明确的含义,从而使得该短语可以作为标签。
例如:
<1>在搜索日志中,如果短语的日搜索量低于10不作为片段文本的候选标签;
<2>在知识图谱中,如果短语为一个作品(例如歌曲、电视剧等)的概率高于阈值,并且短语在目标文本中未处于书名号括住的部分。
步骤203,从目标文本中进行标签类型为话题的标签提取,得到话题的候选标签。
具体地,若所述标签类型为话题,将与所述目标文本匹配的热门话题作为话题的候选标签。作为一种可能的实现方式,这里的热门话题可以是根据最近一段时间的高频搜索词中挖掘得到的。
例如,一篇标题为《第18号台风“泰利”新动态,中央气象台12日06时发布台风蓝色预警!》的新闻文章,从标题和内容中希望提取包括“台风”、“气象灾害”、“台风预警”、“中央气象台”、“18号台风泰利”等在内的标签。这些标签能够有效表征这篇新闻文章,以及读者在阅读该文章时关注的兴趣内容。在以上例子中的新闻中,关于“18号台风泰利”在一段时间内是一个特定的时事话题,这类话题对于新闻、资讯文章的推荐具有较高的价值。
步骤204,对实体词的候选标签、片段文本的候选标签和话题的候选标签进行交叉验证。
具体地,得到实体词的候选标签、片段文本的候选标签和话题的候选标签之后,可以进一步进行交叉验证,交叉验证中主要关注标签之间存在重合的部分,重合中引起的过度泛化问题在这里解决。
例如:“冰箱”和“冰箱贴”完全是两种不同的读者兴趣点,不应该同时保留在关键标签中。
作为一种可能的实现方式,交叉验证采用的策略包括以下至少两种:
<1>片段文本的候选标签中包含至少一个实体词的候选标签;
或者,片段文本的候选标签未包含至少一个实体词的候选标签,但所述片段文本的候选标签在搜索引擎日志中的搜索量高于预设阈值,例如日搜索量高于300;
<2>片段文本的候选标签包含实体词的候选标签,该实体词的候选标签在目标文本中,被括在引号或书名号之间,则筛选掉该片段文本的候选标签。
步骤205,对针对经过验证的候选标签,根据相对所述目标文本的语义重要性进行排序。
作为一种可能的实现方式,得分的计算,使用的是排序学习(Learn to Rank,LTR)机器学习算法,例如GBrank是一个基于集成决策树的LTR算法。训练用的数据是人工标注的文章和对应的关键词作为正例,随机抽取的非关键词作为负例,利用这些正负例训练排序模型,模型的目标是对正例给出的得分要高于对负例给出的得分。根据得分,对候选标签进行由高到低的排序。
步骤206,根据排序,确定出所述目标标签。
具体地,可以选取排序为前若干个的候选标签,作为目标文本的目标标签。
为了清楚说明本实施例,本实施例还提供了一种应用场景,在该应用场景中,需对一篇标题为《第18号台风“泰利”新动态,中央气象台12日06时发布台风蓝色预警!》的新闻文章生成标签。图3为应用场景采用的标签生成方法的流程框图,图4为标签生成过程的示意图。
如图3所示,一方面,通过对实体词进行召回,得到“台风”、“浙江”、“福建”、“风力”、“海面”、“阵风”、“预警”、“气象台”、“风圈”、“沿海”、“强台风”等等。进而,基于词频、词性、命名实体类别、TF-IDF、语法依存关系和语义角色等特征进行筛选,仅保留“台风”、“气象台”和“预警”。
另一方面,通过短语召回,得到“中央气象台”、“热带低压”、“十级风圈”、“气象灾害”、“台风预警”等等。进而,基于用户搜索日志、知识图谱、短语中各词条词性的组合方式、短语内部多个词条的词性进行筛选,保留“中央气象台”、“气象灾害”和“台风预警”。
又一方面,基于规则对热门话题召回,得到“18号台风泰利”。
在得到“台风”、“气象台”和“预警”这三个实体词的候选标签,以及“中央气象台”和“台风预警”这两个片段文本的候选标签,以及“18号台风泰利”之后,进行交叉验证,筛选掉“预警”和“气象台”。
最后,通过排序后,输出如图4所示的全部标签。
本实施例中,通过针对目标文本分别采用各标签类型对应的策略进行关键词提取,以得到所述目标文本各标签类型的候选标签之后,对各标签类型的候选标签,在不同标签类型之间进行交叉验证,最终根据经过验证的候选标签,确定出目标文本的目标标签。由于分别针对包括实体词、片段文本和/或话题在内的不同标签类型,进行标签提取,并进行交叉验证,从而提高了标签提取的准确性,解决了现有技术中标签提取的准确性不高的技术问题。
为了实现上述实施例,本发明还提出一种文本标签生成装置。
图5为本发明实施例提供的一种文本标签生成装置的结构示意图。
如图5所示,该文本标签生成装置包括:提取模块31、验证模块32和确定模块33。
提取模块31,用于针对目标文本分别采用各标签类型对应的策略进行关键词提取,以得到所述目标文本各标签类型的候选标签。
其中,标签类型包括实体词、片段文本和/或话题。
可选地,提取模块31具体用于若所述标签类型为实体词,对所述目标文本进行分词,得到各词条,提取所述各词条的词特征,根据所述词特征,对各词条进行筛选,以得到所述实体词的候选标签。
其中,提取模块31根据所述词特征,对各词条进行筛选,包括:根据所述词特征,匹配预设的词过滤策略,以对各词条进行筛选;和/或,将各词条的词特征,输入预先训练的分类模型,以根据分类结果判断是否筛选掉对应的词条;其中,所述分类模型,预先学习得到所述词特征与是否作为标签的分类结果之间的对应关系。
和/或,可选地,提取模块31具体用于若所述标签类型为片段文本,对所述目标文本进行分词,得到各短语;根据各短语所包含的词条,匹配短语过滤策略以对各短语进行筛选,以得到片段文本的候选标签。
提取模块31对所述目标文本进行分词,得到各短语之后,还可以用于:根据搜索日志,查询各短语的搜索量,根据搜索量对各短语进行筛选,以得到所述片段文本的候选标签;和/或,查询预设知识图谱,以确定各短语是否为已知对象名称,根据查询结果对各短语进行筛选,以得到所述片段文本的候选标签。
和/或,可选地,提取模块31具体用于若所述标签类型为话题,将与所述目标文本匹配的热门话题作为话题的候选标签。
验证模块32,用于对各标签类型的候选标签,在不同标签类型之间进行交叉验证。
具体地,验证模块32具体用于根据不同标签类型的候选标签之间的重合字符,对候选标签进行筛选,以保留匹配读者兴趣点的候选标签。
确定模块33,用于根据经过验证的候选标签,确定出所述目标文本的目标标签。
具体地,确定模块33具体用于针对经过验证的候选标签,根据相对所述目标文本的语义重要性进行排序;根据所述排序,确定出所述目标标签。
需要说明的是,前述对方法实施例的解释说明也适用于该实施例的装置,此处不再赘述。
为了实现上述实施例,本发明还提出一种计算机设备,包括:处理器,以及用于存储所述处理器可执行指令的存储器。
其中,处理器被配置为:针对目标文本分别采用各标签类型对应的策略进行关键词提取,以得到所述目标文本各标签类型的候选标签;所述标签类型包括实体词、片段文本和/或话题;对各标签类型的候选标签,在不同标签类型之间进行交叉验证;根据经过验证的候选标签,确定出所述目标文本的目标标签。
为了实现上述实施例,本发明还提出一种非临时性计算机可读存储介质,当所述存储介质中的指令由处理器被执行时,能够执行一种文本标签生成方法,所述方法包括:针对目标文本分别采用各标签类型对应的策略进行关键词提取,以得到所述目标文本各标签类型的候选标签;所述标签类型包括实体词、片段文本和/或话题;对各标签类型的候选标签,在不同标签类型之间进行交叉验证;根据经过验证的候选标签,确定出所述目标文本的目标标签。
为了实现上述实施例,本发明还提出一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行一种文本标签生成方法,所述方法包括:针对目标文本分别采用各标签类型对应的策略进行关键词提取,以得到所述目标文本各标签类型的候选标签;所述标签类型包括实体词、片段文本和/或话题;对各标签类型的候选标签,在不同标签类型之间进行交叉验证;根据经过验证的候选标签,确定出所述目标文本的目标标签。
图6示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图6显示的计算机设备12仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器35。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得读者能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local AreaNetwork;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的访问权限控制方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (9)

1.一种文本标签生成方法,其特征在于,包括以下步骤:
针对目标文本分别采用各标签类型对应的策略进行关键词提取,以得到所述目标文本各标签类型的候选标签;所述标签类型包括实体词、片段文本和话题中的至少两种;
对各标签类型的候选标签,在不同标签类型之间进行交叉验证;
根据经过验证的候选标签,确定出所述目标文本的目标标签;
其中,所述对各标签类型的候选标签,在不同标签类型之间进行交叉验证,包括:
根据不同标签类型的候选标签之间的重合字符,对候选标签进行筛选,以保留匹配读者兴趣点的候选标签;
所述根据经过验证的候选标签,确定出所述目标文本的目标标签,包括:
针对经过验证的候选标签,根据相对所述目标文本的语义重要性进行排序;
根据所述排序,确定出所述目标标签。
2.根据权利要求1所述的文本标签生成方法,其特征在于,所述针对目标文本分别采用各标签类型对应的策略进行关键词提取,包括:
若所述标签类型为实体词,对所述目标文本进行分词,得到各词条;
提取所述各词条的词特征;
根据所述词特征,对各词条进行筛选,以得到所述实体词的候选标签。
3.根据权利要求2所述的文本标签生成方法,其特征在于,所述根据所述词特征,对各词条进行筛选,包括:
根据所述词特征,匹配预设的词过滤策略,以对各词条进行筛选;
和/或,将各词条的词特征,输入预先训练的分类模型,以根据分类结果判断是否筛选掉对应的词条;其中,所述分类模型,预先学习得到所述词特征与是否作为标签的分类结果之间的对应关系。
4.根据权利要求1所述的文本标签生成方法,其特征在于,所述针对目标文本分别采用各标签类型对应的策略进行关键词提取,包括:
若所述标签类型为片段文本,对所述目标文本进行分词,得到各短语;
根据各短语所包含的词条,匹配短语过滤策略以对各短语进行筛选,以得到片段文本的候选标签。
5.根据权利要求4所述的文本标签生成方法,其特征在于,所述对所述目标文本进行分词,得到各短语之后,还包括:
根据搜索日志,查询各短语的搜索量,根据搜索量对各短语进行筛选,以得到所述片段文本的候选标签;
和/或,查询预设知识图谱,以确定各短语是否为已知对象名称,根据查询结果对各短语进行筛选,以得到所述片段文本的候选标签。
6.根据权利要求1所述的文本标签生成方法,其特征在于,所述针对目标文本分别采用各标签类型对应的策略进行关键词提取,包括:
若所述标签类型为话题,将与所述目标文本匹配的热门话题作为话题的候选标签。
7.一种文本标签生成装置,其特征在于,包括:
提取模块,用于针对目标文本分别采用各标签类型对应的策略进行关键词提取,以得到所述目标文本各标签类型的候选标签;所述标签类型包括实体词、片段文本和话题中的至少两种;
验证模块,用于对各标签类型的候选标签,在不同标签类型之间进行交叉验证;
确定模块,用于根据经过验证的候选标签,确定出所述目标文本的目标标签;
其中,所述验证模块,具体用于根据不同标签类型的候选标签之间的重合字符,对候选标签进行筛选,以保留匹配读者兴趣点的候选标签
所述确定模块,具体用于针对经过验证的候选标签,根据相对所述目标文本的语义重要性进行排序;根据所述排序,确定出所述目标标签。
8.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如权利要求1-6中任一所述的文本标签生成方法。
9.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的文本标签生成方法。
CN201710541481.0A 2017-07-05 2017-07-05 文本标签生成方法和装置 Active CN107436922B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710541481.0A CN107436922B (zh) 2017-07-05 2017-07-05 文本标签生成方法和装置
US16/018,983 US10838997B2 (en) 2017-07-05 2018-06-26 Method and device for generating text tag

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710541481.0A CN107436922B (zh) 2017-07-05 2017-07-05 文本标签生成方法和装置

Publications (2)

Publication Number Publication Date
CN107436922A CN107436922A (zh) 2017-12-05
CN107436922B true CN107436922B (zh) 2021-06-08

Family

ID=60459708

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710541481.0A Active CN107436922B (zh) 2017-07-05 2017-07-05 文本标签生成方法和装置

Country Status (2)

Country Link
US (1) US10838997B2 (zh)
CN (1) CN107436922B (zh)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992585B (zh) 2017-12-08 2020-09-18 北京百度网讯科技有限公司 通用标签挖掘方法、装置、服务器及介质
CN108009293B (zh) * 2017-12-26 2022-08-23 北京百度网讯科技有限公司 视频标签生成方法、装置、计算机设备和存储介质
CN108334626B (zh) * 2018-02-12 2022-06-10 百度在线网络技术(北京)有限公司 新闻栏目的生成方法、装置和计算机设备
CN109033064B (zh) * 2018-05-31 2022-06-28 华中师范大学 一种基于文本摘要的小学语文作文语料标签自动提取方法
CN110580285B (zh) * 2018-06-08 2021-09-24 北京三快在线科技有限公司 一种产品标签确定方法及装置,电子设备
CN108829893B (zh) * 2018-06-29 2021-01-29 北京百度网讯科技有限公司 确定视频标签的方法、装置、存储介质和终端设备
CN109101486A (zh) * 2018-07-11 2018-12-28 广州杰赛科技股份有限公司 一种对话角色区分方法、装置、终端设备及存储介质
CN109241281B (zh) * 2018-08-01 2022-09-23 百度在线网络技术(北京)有限公司 软件失效原因生成方法、装置及设备
CN109145260B (zh) * 2018-08-24 2020-04-24 北京科技大学 一种文本信息自动提取方法
CN109614482B (zh) * 2018-10-23 2022-06-03 北京达佳互联信息技术有限公司 标签的处理方法、装置、电子设备及存储介质
CN109684394B (zh) * 2018-12-13 2021-05-18 北京百度网讯科技有限公司 文本生成方法、装置、设备和存储介质
CN109785959A (zh) * 2018-12-14 2019-05-21 平安医疗健康管理股份有限公司 一种疾病编码方法和装置
CN109766442A (zh) * 2019-01-08 2019-05-17 广东小天才科技有限公司 一种对用户笔记进行分类的方法及系统
CN109800288B (zh) * 2019-01-22 2020-12-15 杭州师范大学 一种基于知识图谱的科学研究热点分析与预测方法
US11354351B2 (en) * 2019-01-31 2022-06-07 Chooch Intelligence Technologies Co. Contextually generated perceptions
CN109933662B (zh) * 2019-02-15 2021-03-12 北京奇艺世纪科技有限公司 模型训练方法、信息生成方法、装置、电子设备和计算机可读介质
CN109976622B (zh) * 2019-04-04 2021-02-02 掌阅科技股份有限公司 书籍标签确定方法、电子设备及计算机存储介质
CN110188203B (zh) * 2019-06-10 2022-08-26 北京百度网讯科技有限公司 文本聚合方法、装置、设备及存储介质
CN110532229B (zh) * 2019-06-14 2023-06-20 平安科技(深圳)有限公司 证据文件检索方法、装置、计算机设备和存储介质
CN110502740B (zh) * 2019-07-03 2022-05-17 平安科技(深圳)有限公司 问句实体识别与链接方法、装置、计算机设备及存储介质
CN110674620A (zh) * 2019-09-20 2020-01-10 阿里巴巴(中国)有限公司 目标文案生成方法、装置、介质及电子设备
CN110765778B (zh) * 2019-10-23 2023-08-29 北京锐安科技有限公司 一种标签实体处理方法、装置、计算机设备和存储介质
CN113010768B (zh) * 2019-12-19 2024-03-19 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN111314732A (zh) * 2020-03-19 2020-06-19 青岛聚看云科技有限公司 确定视频标签的方法、服务器及存储介质
CN111563361A (zh) * 2020-04-01 2020-08-21 北京小米松果电子有限公司 文本标签的提取方法及装置、存储介质
CN111522863B (zh) * 2020-04-15 2023-07-25 北京百度网讯科技有限公司 一种主题概念挖掘方法、装置、设备以及存储介质
CN111522994B (zh) * 2020-04-15 2023-08-01 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN111680482B (zh) * 2020-05-07 2024-04-12 车智互联(北京)科技有限公司 一种标题图文生成方法及计算设备
CN111597452B (zh) * 2020-05-21 2023-08-25 北京明略软件系统有限公司 一种添加标签的方法、装置、电子设备及可读存储介质
CN111651586B (zh) * 2020-05-29 2023-05-30 北京小米松果电子有限公司 文本分类的规则模板生成方法、分类方法及装置、介质
US11140112B1 (en) * 2020-06-29 2021-10-05 Unify Patente Gmbh & Co. Kg Method of generating a thread for discussion amongst a plurality of participants in a group conversation and real-time communication and collaboration platform
CN112446204A (zh) * 2020-12-07 2021-03-05 北京明略软件系统有限公司 一种文档标签的确定方法、系统及计算机设备
CN112668321B (zh) * 2020-12-29 2023-11-07 竹间智能科技(上海)有限公司 关键词提取方法及装置、电子设备、存储介质
CN112948573B (zh) * 2021-02-05 2024-04-02 北京百度网讯科技有限公司 文本标签的提取方法、装置、设备和计算机存储介质
CN113822013B (zh) * 2021-03-08 2024-04-05 京东科技控股股份有限公司 用于文本数据的标注方法、装置、计算机设备及存储介质
CN113158671B (zh) * 2021-03-25 2023-08-11 胡明昊 一种结合命名实体识别的开放域信息抽取方法
CN113312484B (zh) * 2021-06-10 2023-06-20 支付宝(杭州)信息技术有限公司 对象标签处理方法及装置
CN113468339A (zh) * 2021-06-24 2021-10-01 北京明略软件系统有限公司 基于知识图谱的标签提取方法、系统、电子设备及介质
CN115599903A (zh) * 2021-07-07 2023-01-13 腾讯科技(深圳)有限公司(Cn) 对象标签获取方法、装置、电子设备及存储介质
CN113704501A (zh) * 2021-08-10 2021-11-26 上海硬通网络科技有限公司 应用的标签获取方法、装置、电子设备及存储介质
CN113836905B (zh) * 2021-09-24 2023-08-08 网易(杭州)网络有限公司 一种主题提取方法、装置、终端及存储介质
CN114357990B (zh) * 2022-03-18 2022-05-31 北京创新乐知网络技术有限公司 文本数据标注方法、装置、电子设备和存储介质
CN114757191A (zh) * 2022-03-29 2022-07-15 国网江苏省电力有限公司营销服务中心 基于深度学习的电力舆情领域命名实体识别方法系统
CN116208772A (zh) * 2023-05-05 2023-06-02 浪潮电子信息产业股份有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN116720944B (zh) * 2023-08-10 2023-12-19 山景智能(北京)科技有限公司 银行流水打标方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102200959A (zh) * 2010-03-25 2011-09-28 索尼公司 信息处理设备、信息处理方法和程序
CN103164471A (zh) * 2011-12-15 2013-06-19 盛乐信息技术(上海)有限公司 视频文本标签的推荐方法及系统
CN105354262A (zh) * 2015-10-26 2016-02-24 天津大学 一种提取短信文本标签方法
CN105677640A (zh) * 2016-01-08 2016-06-15 中国科学院计算技术研究所 一种面向开放文本的领域概念抽取方法
CN105701223A (zh) * 2016-01-15 2016-06-22 中国人民解放军国防科学技术大学 基于Spark Streaming的财经信息情感趋势分析方法
CN105824898A (zh) * 2016-03-14 2016-08-03 苏州大学 一种网络评论的标签提取方法和装置

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6711585B1 (en) * 1999-06-15 2004-03-23 Kanisa Inc. System and method for implementing a knowledge management system
AU2001264928A1 (en) * 2000-05-25 2001-12-03 Kanisa Inc. System and method for automatically classifying text
US8065604B2 (en) * 2004-12-30 2011-11-22 Massachusetts Institute Of Technology Techniques for relating arbitrary metadata to media files
US7958444B2 (en) * 2006-06-15 2011-06-07 Xerox Corporation Visualizing document annotations in the context of the source document
US7962555B2 (en) * 2006-09-29 2011-06-14 International Business Machines Corporation Advanced discussion thread management using a tag-based categorization system
US9208251B2 (en) * 2007-01-19 2015-12-08 Linkedin Corporation Computer-based evaluation tool for selecting personalized content for users
US10762080B2 (en) * 2007-08-14 2020-09-01 John Nicholas and Kristin Gross Trust Temporal document sorter and method
US8280892B2 (en) * 2007-10-05 2012-10-02 Fujitsu Limited Selecting tags for a document by analyzing paragraphs of the document
US9684683B2 (en) * 2010-02-09 2017-06-20 Siemens Aktiengesellschaft Semantic search tool for document tagging, indexing and search
CN103198057B (zh) * 2012-01-05 2017-11-07 深圳市世纪光速信息技术有限公司 一种自动给文档添加标签的方法和装置
US9542473B2 (en) * 2013-04-30 2017-01-10 Microsoft Technology Licensing, Llc Tagged search result maintainance
US9547713B2 (en) * 2013-04-30 2017-01-17 Microsoft Technology Licensing, Llc Search result tagging
US9558270B2 (en) * 2013-04-30 2017-01-31 Microsoft Technology Licensing, Llc Search result organizing based upon tagging
CN103886034B (zh) * 2014-03-05 2019-03-19 北京百度网讯科技有限公司 一种建立索引及匹配用户的查询输入信息的方法和设备
US10146862B2 (en) * 2014-08-04 2018-12-04 Regents Of The University Of Minnesota Context-based metadata generation and automatic annotation of electronic media in a computer network
CN104199898B (zh) * 2014-08-26 2018-05-15 北京小度互娱科技有限公司 一种属性信息的获取方法及装置、推送方法及装置
US9697296B2 (en) * 2015-03-03 2017-07-04 Apollo Education Group, Inc. System generated context-based tagging of content items
US20160378757A1 (en) * 2015-06-23 2016-12-29 Facebook, Inc. Concept identifier recommendation system
US10410136B2 (en) * 2015-09-16 2019-09-10 Microsoft Technology Licensing, Llc Model-based classification of content items
US10162865B2 (en) * 2015-10-08 2018-12-25 Microsoft Technology Licensing, Llc Generating image tags
US10534814B2 (en) * 2015-11-11 2020-01-14 Facebook, Inc. Generating snippets on online social networks
US20170185653A1 (en) * 2015-12-29 2017-06-29 Quixey, Inc. Predicting Knowledge Types In A Search Query Using Word Co-Occurrence And Semi/Unstructured Free Text
US10552501B2 (en) * 2017-03-28 2020-02-04 Oath Inc. Multilabel learning via supervised joint embedding of documents and labels

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102200959A (zh) * 2010-03-25 2011-09-28 索尼公司 信息处理设备、信息处理方法和程序
CN103164471A (zh) * 2011-12-15 2013-06-19 盛乐信息技术(上海)有限公司 视频文本标签的推荐方法及系统
CN105354262A (zh) * 2015-10-26 2016-02-24 天津大学 一种提取短信文本标签方法
CN105677640A (zh) * 2016-01-08 2016-06-15 中国科学院计算技术研究所 一种面向开放文本的领域概念抽取方法
CN105701223A (zh) * 2016-01-15 2016-06-22 中国人民解放军国防科学技术大学 基于Spark Streaming的财经信息情感趋势分析方法
CN105824898A (zh) * 2016-03-14 2016-08-03 苏州大学 一种网络评论的标签提取方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
交叉验证方法;大智若愚;《https://blog.csdn.net/zbc1090549839/article/details/44263703》;20150314;全文 *

Also Published As

Publication number Publication date
CN107436922A (zh) 2017-12-05
US20190012377A1 (en) 2019-01-10
US10838997B2 (en) 2020-11-17

Similar Documents

Publication Publication Date Title
CN107436922B (zh) 文本标签生成方法和装置
CN108829893B (zh) 确定视频标签的方法、装置、存储介质和终端设备
CN108197098B (zh) 一种关键词组合策略的生成及关键词扩展方法、装置和设备
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN106528845B (zh) 基于人工智能的检索纠错方法及装置
CN109815487B (zh) 文本质检方法、电子装置、计算机设备及存储介质
US11163936B2 (en) Interactive virtual conversation interface systems and methods
CA2774278C (en) Methods and systems for extracting keyphrases from natural text for search engine indexing
CN108595660A (zh) 多媒体资源的标签信息生成方法、装置、存储介质及设备
US20150193482A1 (en) Topic sentiment identification and analysis
CN110909122B (zh) 一种信息处理方法及相关设备
CN107948730B (zh) 基于图片生成视频的方法、装置、设备及存储介质
CN111291177A (zh) 一种信息处理方法、装置和计算机存储介质
US20140289260A1 (en) Keyword Determination
CN106610990A (zh) 情感倾向性分析的方法及装置
CN107861948B (zh) 一种标签提取方法、装置、设备和介质
JP6420268B2 (ja) 画像評価学習装置、画像評価装置、画像検索装置、画像評価学習方法、画像評価方法、画像検索方法、およびプログラム
CN109657043B (zh) 自动生成文章的方法、装置、设备及存储介质
US20210334314A1 (en) Sibling search queries
CN107908649B (zh) 一种文本分类的控制方法
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN108475265B (zh) 获取未登录词的方法与装置
Liang et al. Detecting novel business blogs
US9946765B2 (en) Building a domain knowledge and term identity using crowd sourcing
US20230090601A1 (en) System and method for polarity analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant