CN113836905B - 一种主题提取方法、装置、终端及存储介质 - Google Patents

一种主题提取方法、装置、终端及存储介质 Download PDF

Info

Publication number
CN113836905B
CN113836905B CN202111124276.7A CN202111124276A CN113836905B CN 113836905 B CN113836905 B CN 113836905B CN 202111124276 A CN202111124276 A CN 202111124276A CN 113836905 B CN113836905 B CN 113836905B
Authority
CN
China
Prior art keywords
symbol
label
text
extracted
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111124276.7A
Other languages
English (en)
Other versions
CN113836905A (zh
Inventor
王淏淏
朱桂华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netease Hangzhou Network Co Ltd
Original Assignee
Netease Hangzhou Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Hangzhou Network Co Ltd filed Critical Netease Hangzhou Network Co Ltd
Priority to CN202111124276.7A priority Critical patent/CN113836905B/zh
Publication of CN113836905A publication Critical patent/CN113836905A/zh
Application granted granted Critical
Publication of CN113836905B publication Critical patent/CN113836905B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种主题提取方法、装置、终端及存储介质,该方法可以获取待提取文本,响应在所述待提取文本中识别出标签起始符号,确定所述标签起始符号之后是否存在预设的标签结束符号;若所述标签起始符号之后存在标签结束符号,将所述标签起始符号和所述标签结束符号之间的文本内容确定为所述待提取文本的目标主题;若所述标签结束符号与所述标签起始符号的类型相同,则确定所述标签结束符号之后是否还存在新的标签结束符号,若是,则还将所述标签结束符号和所述新的标签结束符号之间的文本内容确定为所述待提取文本的目标主题。本方案可以降低遗漏标签和过度提取的概率,进一步提高标签提取结果的准确度。

Description

一种主题提取方法、装置、终端及存储介质
技术领域
本申请涉及计算机技术领域,具体涉及一种主题提取方法、装置、终端及存储介质。
背景技术
当前主流的资讯类应用程序中,存在双井号识别模式和单井号识别模式两种方式。在一些使用单井号提取模式的应用程序中,每个标签以井号开头,以空格或标点符号为结尾,若含有多个井号,则每个井号均向后提取出一个标签;但对于双井号标签可能会过度提取,提取出两个标签,第二个标签以标点处为结尾,将普通的正文内容也错误提取为了长标签。在一些使用双井号提取模式的应用程序中,只有以井号开头,同时以井号结尾,两个井号之间的内容才会被提取为一个标签,若只开头或结尾含有井号,不提取标签;但无法识别单井号标签,直接处理为普通正文。
因此,现有技术需要改进。
发明内容
本申请实施例提供一种主题提取方法、装置、终端及存储介质,可以降低遗漏标签和过度提取的概率,进一步提高标签提取结果的准确度。
本申请实施例提供一种主题提取方法,包括:
获取待提取文本;
响应在所述待提取文本中识别出标签起始符号,确定所述标签起始符号之后是否存在预设的标签结束符号;
若所述标签起始符号之后存在所述标签结束符号,将所述标签起始符号和所述标签结束符号之间的文本内容确定为所述待提取文本的目标主题;
若所述标签结束符号与所述标签起始符号的类型相同,则确定所述标签结束符号之后是否还存在新的标签结束符号,若是,则还将所述标签结束符号和所述新的标签结束符号之间的文本内容确定为所述待提取文本的目标主题。
在一个可选的实施例中,所述标签结束符号包括第一标签符号,所述第一标签符号与所述标签起始符号的类型不同,所述若所述标签起始符号之后存在预设的标签结束符号,将所述标签起始符号和所述标签结束符号之间的文本内容确定为所述待提取文本的目标主题,包括:
若所述标签起始符号的数量为至少两个,确定顺序相邻的两个标签起始符号之间的文本内容中是否存在所述第一标签符号;
若是,则将所述顺序相邻的两个标签起始符号在前的标签起始符号与距离最近的所述第一标签符号之间的文本内容确定为所述待提取文本的目标主题,若在后的标签起始符号为最后一个标签起始符号且所述最后一个标签起始符号之后还存在所述第一标签符号,则还将所述最后一个标签起始符号和所第一标签符号之间的文本内容确定为所述待提取文本的目标主题;
若否,确定所述顺序相邻的两个标签起始符号中在后的标签起始符号为在前的标签起始符号对应的标签结束符号,将所述顺序相邻的两个标签起始符号之间的文本内容确定为所述待提取文本的目标主题。
在一个可选的实施例中,所述若所述标签起始符号之后存在预设的标签结束符号,将所述标签起始符号和所述标签结束符号之间的文本内容确定为所述待提取文本的目标主题,包括:
若所述标签结束符号为所述待提取文本中最后一个标签起始符号,确定所述标签结束符号之后是否还存在所述第一标签符号,若是,则还将所述标签结束符号和所述第一标签符号之间的文本内容确定为所述待提取文本的目标主题。
在一个可选的实施例中,所述响应在所述待提取文本中识别出标签起始符号,确定所述标签起始符号之后是否存在标签结束符号,包括:
响应将识别出的第一个标签起始符号作为当前标签起始符号,识别所述当前标签起始符号之后是否存在预设的标签结束符号;
所述若所述标签起始符号之后存在预设的标签结束符号,将所述标签起始符号和所述标签结束符号之间的文本内容确定为所述待提取文本的目标主题,包括:
若所述当前标签起始符号之后存在预设的标签结束符号,则将所述当前标签起始符号和所述标签结束符号之间的文本内容确定为所述待提取文本的目标主题。
在一个可选的实施例中,所述方法还包括:
若所述标签结束符号与所述当前标签起始符号的类型不同,识别所述标签结束符号之后是否还存在标签起始符号,若存在,将识别到的标签起始符号作为新的当前标签起始符号,返回执行所述识别所述当前标签起始符号之后是否存在预设的标签结束符号的步骤,直到对最后一个标签起始符号完成主题文本的识别。
在一个可选的实施例中,所述若所述标签结束符号与所述标签起始符号的类型相同,则确定所述标签结束符号之后是否还存在新的标签结束符号,若是,则还将所述标签结束符号和所述新的标签结束符号之间的文本内容确定为所述待提取文本的目标主题,包括:
若所述标签结束符号与所述当前标签起始符号的类型相同,则将所述标签结束符号作为新的当前标签起始符号,返回执行所述识别所述当前标签起始符号之后是否存在预设的标签结束符号的步骤,直到对最后一个标签起始符号完成主题文本的识别。
在一个可选的实施例中,所述将所述当前标签起始符号和所述标签结束符号之间的文本内容确定为所述待提取文本的目标主题,包括:
将所述当前标签起始符号与所述标签结束符号之间的文本内容,以及所述当前标签起始符号确定为所述目标主题;
所述方法还包括:
若所述当前标签起始符号之后不存在所述标签结束符号,且所述当前标签起始符号为在前的标签起始符号对应的标签结束符号,将所述当前标签起始符号作为所述在前的标签起始符号对应的目标主题的一部分。
在一个可选的实施例中,所述方法还包括:
在所述待提取文本中突出显示提取出的所述目标主题。
在一个可选的实施例中,所述在所述待提取文本中突出显示提取出的所述目标主题,包括:
获取所述目标主题对应的显示样式;
在所述待提取文本中将所述目标主题以对应的显示样式进行显示,以区别所述目标主题与所述待提取文本中除所述目标主题以外的其他文本内容,其中所述预设显示样式包括如下至少一种:颜色、字体、显示尺寸。
在一个可选的实施例中,所述获取所述目标主题对应的显示样式,包括:
对所述目标主题中的各主题文本进行语义识别,得到各主题文本对应的语义向量;
基于所述语义向量确定主题文本之间的语义层次;
基于各主题文本的语义层次,获取各主题文本对应的显示样式,其中,不同语义层次的主题文本的显示样式不同。
在一个可选的实施例中,还包括:
基于各主题文本的语义层次,以及各主题文本在所述待提取文本中的位置,对所述待提取文本进行排版。
在一个可选的实施例中,所述获取待提取文本包括:
响应于针对文本编辑框的文本编辑操作,将所述文本编辑框中的用户输入文本作为待提取文本;
所述在所述待提取文本中突出显示提取出的所述目标主题之后,还包括:
响应于针对所述待提取文本的发布操作,发布带有所述目标文本标签的所述待提取文本。
本申请实施例还提供一种标签提取装置,包括:
获取单元,用于获取待提取文本;
第一确定单元,用于响应在所述待提取文本中识别出标签起始符号,确定所述标签起始符号之后是否存在预设的标签结束符号;
第二确定单元,用于若所述标签起始符号之后存在所述标签结束符号,将所述标签起始符号和所述标签结束符号之间的文本内容确定为所述待提取文本的目标主题;
第三确定单元,用于若所述标签结束符号与所述标签起始符号的类型相同,则确定所述标签结束符号之后是否还存在新的标签结束符号,若是,则还将所述标签结束符号和所述新的标签结束符号之间的文本内容确定为所述待提取文本的目标主题。
本申请实施例还提供了一种终端,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行计算机程序时实现如上述主题提取方法的步骤。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其中,计算机程序被处理器执行时实现如上述主题提取方法的步骤。
本申请实施例提供了一种主题提取方法、装置、终端及存储介质,在终端获取待提取文本,响应在待提取文本中识别出标签起始符号,确定标签起始符号之后是否存在预设的标签结束符号;若所述标签起始符号之后存在标签结束符号,将标签起始符号和标签结束符号之间的文本内容确定为待提取文本的目标主题;若标签结束符号与标签起始符号的类型相同,则确定标签结束符号之后是否还存在新的标签结束符号,若是,则还将标签结束符号和新的标签结束符号之间的文本内容确定为待提取文本的目标主题。由此,本方案可以通过识别待提取文本中的每一个标签起始符号,判断是否存在预设的标签结束符号,将标签起始符号与标签结束符号之间的文本内容确定为待提取文本的标签,可以最大程度兼容单个、多个标签等场景的提取,降低遗漏标签和过度提取的概率,进一步提高标签提取结果的准确度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种主题提取装置的系统示意图;
图2是本申请实施例提供的一种主题提取方法的流程示意图;
图3是本申请实施例提供的一种单个目标主题的示意图;
图4是本申请实施例提供的另一种单个目标主题的示意图;
图5是本申请实施例提供的一种多个目标主题的示意图;
图6是本申请实施例提供的另一种多个目标主题的示意图;
图7是本申请实施例提供的一种主题提取方法的另一种流程示意图;
图8是本申请实施例提供的一种的主题提取装置的结构示意图;
图9是本申请实施例提供的一种终端的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种主题提取方法、装置、终端及存储介质。具体地,本实施例提供适用于主题提取装置的主题提取方法,该主题提取装置可以集成在计算机设备中。
其中,该计算机设备可以为终端等设备,例如可以为智能手机、平板电脑、笔记本电脑、触控屏幕、游戏机、个人计算机(PC,Personal Computer)、个人数字助理(PersonalDigital Assistant,PDA)等终端设备,终端还可以包括客户端,该客户端可以是游戏应用客户端、携带有游戏程序的浏览器客户端或即时通信客户端等。该计算机设备还可以为服务器等设备,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器,但并不局限于此。
请参阅图1,图1为本申请实施例提供的主题提取装置的系统示意图。该系统可以包括至少一个终端设备,在终端获取到待提取文本后,对待提取文本中的标签符号进行识别。终端针对每一个识别出的标签起始符号,判断在标签起始符号之后是否存在预设的标签结束符号,若存在,则终端确定标签起始符号与标签结束符号之间的文本内容作为待提取文本的目标主题。若标签结束符号与标签起始符号的类型相同,则确定该标签结束符号之后是否还存在新的标签结束符号,若是,则还将标签结束符号和新的标签结束符号之间的文本内容确定为待提取文本的目标主题。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本申请实施例将从主题提取装置的角度进行描述,该主题提取装置具体可以集成在终端设备中,该终端设备可以包括智能手机、笔记本电脑、平板电脑以及个人计算机等设备。
本申请实施例提供了一种主题提取方法,该主题提取方法可以由终端的处理器执行,如图2所示,本申请实施例的主题提取方法的具体流程主要包括步骤201至步骤204,详细说明如下:
201、获取待提取文本。
在本申请实施例中,标签是指文本在某一方面的特点描述,例如可以是用户从文本中提炼出的主题性质,及表述文本表达重点的关键词,常以井号“#”予以标识。本申请以井号作为标签起始符号为例,在一段文本中,可能带有标签起始符号,需要提取出该文本对应的文本标签,也即该文本的主题,设该文本为待提取文本。在终端获取到待提取文本后,对该待提取文本中的标签起始符号进行识别。
202、响应在所述待提取文本中识别出标签起始符号,确定所述标签起始符号之后是否存在预设的标签结束符号。
在本申请实施例中,终端可以先识别出待提取文本中的所有标签起始符号,然后针对每一个标签起始符号提取对应的主题。也可以先识别待提取文本的第一个标签起始符号,确定标签起始符号之后是否存在预设的标签结束符号,依次提取待提取文本的每一个主题。
203、若所述标签起始符号之后存在所述标签结束符号,将所述标签起始符号和所述标签结束符号之间的文本内容确定为所述待提取文本的目标主题。
在本申请实施例中,在终端获取待提取文本并识别其中的标签起始符号后,针对每一个识别出的标签起始符号,判断在标签起始符号之后是否存在预设的标签结束符号。若在标签起始符号之后存在预设的标签结束符号,则基于标签起始符号与标签结束符号之间的文本内容确定文本的主题。本申请实施例以井号作为标签起始符号,预设的标签结束符号可以是井号,段落换行符号,空格符号。其中,标签起始符号及标签结束符号可以是其他的文本符号,本申请对此不作限制。
在本申请的一种实施方式中,若终端识别出的标签起始符号的数量为一个,确定该标签起始符号之后是否存在标签结束符号,若是,则基于标签符号和距离最近的标签结束符号之间的文本内容确定文本的目标主题。例如,在待提取文本中,对于某个井号,设为第一井号,判断在第一井号之后是否存在标签结束符号例如空格符号或段落换行符号,若存在,且设距离最近的标签结束符号为空格符号,则将第一井号与该空格符号之间的文本内容作为该第一井号对应的主题。若不存在,则该第一井号之后不存在可提取的主题。其中,如果第一井号与标签结束符号在待提取文本中是直接相邻的,则也就没有主题可以提取。
在本申请实施例中,以目标用户在某一内容平台上发布有一文本内容为例,设该文本作为待提取文本,且设井号为标签起始符号。请参阅图3,图3为本申请实施例提供的一种单个目标主题的示意图。如图3所示,在内容平台界面301上的文本详情中,包括有目标用户的用户标识302,可以包括目标用户的虚拟头像和用户名称等。在待提取文本307中,识别出一个井号303,且在该井号303之后识别出一空格符号305,则将井号303与空格符号305之间的文本内容确定为目标主题1(304),则待提取文本307中的其他文本内容作为正文内容306。其中,若在井号303之后识别出不是空格符号305,而是段落换行符号或其他预设的标签结束符号,则井号303与该段落换行符号或其他的预设标签结束符号之间的文本内容也确定为目标主题。
请参阅图4,图4为本申请实施例提供的另一种单个目标主题的示意图。如图4所示,在内容平台界面401上的文本详情中,包括有目标用户的用户标识402,在待提取文本407中,识别出第一井号403和第二井号405,则将第一井号403与第二井号405之间的文本内容确定为目标主题1(404),在第二井号405之后没有识别到预设标签结束符号,则待提取文本407中的其他文本内容为正文内容406。
在本申请的一种实施方式中,设标签结束符号包括第一标签符号,第一标签符号与标签起始符号的类型不相同,若终端识别出的标签起始符号的数量为至少两个,则确定顺序相邻的两个标签起始符号之间的文本内容中是否存在第一标签符号,若是,则基于距离最近的第一标签符号与顺序相邻的两个标签起始符号在前的标签起始符号之间的文本内容确定目标主题,否则,若确定顺序相邻的两个标签起始符号中在后的标签起始符号为在前的标签起始符号对应的标签结束符号,则基于顺序相邻的两个标签起始符号之间的文本内容确定目标主题。例如,第一标签符号为空格符号或段落换行符号,在待提取文本中,对于某个井号,设为第一井号,在第一井号之后与该第一井号顺序相邻的第二井号之间的文本内容中,如果没有空格符号或段落换行符号时,则第一井号与第二井号之间的文本内容为提取出的一个主题。如果在第一井号与第二井号之间存在空格符号或段落换行符号,且空格符号为与第一井号距离最近的第一标签符号,则将第一井号与空格符号之间的文本内容作为一个主题。
其中,若顺序相邻的两个标签起始符号在后的标签起始符号为最后一个标签起始符号且最后一个标签起始符号之后还存在第一标签符号,则还将最后一个标签起始符号和第一标签符号之间的文本内容确定为待提取文本的目标主题。
其中,若标签结束符号为待提取文本中最后一个标签起始符号,确定标签结束符号之后是否还存在第一标签符号,若是,则还将标签结束符号和第一标签符号之间的文本内容确定为待提取文本的目标主题。
请参阅图5,图5为本申请实施例提供的一种多个目标主题的示意图。如图5所示,在内容平台界面501上的文本详情中,包括有目标用户的用户标识502,在待提取文本509中,识别出第一井号503和第二井号505,则将第一井号503与第二井号505之间的文本内容确定为目标主题1(504),在第二井号505之后识别到一空格符号507,则将第二井号505与空格符号507之间的文本内容作为目标主题2(506)。在空格符号507之后没有识别到标签起始符号,则待提取文本509中的其他文本内容确定为正文内容508。其中,若在第二井号505之后识别出不是空格符号507,而是段落换行符号或其他的预设第一标签符号,则第二井号505与该段落换行符号或其他的预设第一标签符号之间的文本内容也确定为目标主题2。
请参阅图6,图6为本申请实施例提供的一种多个目标主题的示意图。如图6所示,在内容平台界面601上的文本详情中,包括有目标用户的用户标识602,在待提取文本609中,识别出第一井号603,及与第一井号603顺序相邻的第二井号605,在第一井号603与第二井号605之间不存在第一标签符号,则将第一井号603与第二井号605之间的文本内容确定为目标主题1(604),在确定出目标主题1(604)后,又接着识别第二井号605之后的标签符号,由于识别出与第二井号605顺序相邻的第三井号607,则将第二井号605与第三井号607之间的文本内容确定为目标主题2(606)。然后识别第三井号607之后的标签符号,由于不存在对应的标签结束符号,则将则待提取文本609中的其他文本内容确定为正文内容608。
在本申请的一种实施方式中,可以是对待提取文本中的标签起始符号依次进行识别,依次提取对应的目标主题。具体为可以通过如下步骤实现:
识别待提取文本的第一个标签起始符号,在响应将识别出的第一个标签起始符号作为当前标签起始符号时,识别当前标签起始符号之后是否存在预设的标签结束符号。
若当前标签起始符号之后存在预设的标签结束符号,则将当前标签起始符号和标签结束符号之间的文本内容确定为待提取文本的目标主题。
例如,将在待提取文本中识别出的第一个井号作为当前识别标签符号,然后再识别第一井号之后是否存在预设的标签结束符号,如井号、空格符号或段落换行符号,若存在,则将第一井号与标签结束符号之间的文本内容作为目标主题。
若标签结束符号与当前标签起始符号的类型不同,在待提取文本中从该标签结束符号之后继续进行标签起始符号的识别,若该标签结束符号之后还存在标签起始符号,将识别到的标签起始符号作为新的当前标签起始符号,返回执行识别当前标签起始符号之后是否存在预设的标签结束符号的步骤,直到对最后一个标签起始符号完成主题文本的识别。
在本申请实施例中,设第一井号为当前标签起始符号,若在第一井号之后的文本符号不属于井号,段落换行符号或空格符号这些标签结束符号中的一种,例如该文本符号仅为普通的标点符号,则在该标点符号之后继续进行井号的识别,再将识别到的新的井号作为新的当前标签起始符号,再返回执行步骤“识别当前标签起始符号之后是否存在预设的标签结束符号;若当前标签起始符号之后存在预设的标签结束符号,则将当前标签起始符号和标签结束符号之间的文本内容确定为待提取文本的目标主题”,直到对待提取文本中的最后一个井号完成识别。
在本申请的一种实施方式中,步骤“将所述当前标签起始符号和所述标签结束符号之间的文本内容确定为所述待提取文本的目标主题”,具体可以为:将当前标签起始符号与标签结束符号之间的文本内容,以及当前标签起始符号确定为目标主题。此外,若当前标签起始符号之后不存在标签结束符号,且当前标签起始符号为在前的标签起始符号对应的标签结束符号,将该当前标签起始符号作为在前的标签起始符号对应的目标主题的一部分。
在本申请实施例中,例如,对于识别出的第一井号,若第一井号距离最近的标签结束符号为空格符号,则将第一井号及第一井号与空格符号之间的文本内容作为对应的文本标签。若第一井号距离最近的标签结束符号也是井号,设为第二井号,且第二井号之后不存在标签结束符号,则也将第二井号作为第一井号对应的文本标签中的一部分。
在本申请实施例中,标签起始符号与对应的标签结束符号的字体可以一样也可以不一样,例如,第一井号若为英文字体的井号,则该第一井号对应的标签结束符号若为井号,可以是英文字体的井号,也可以是中文字体的井号。第一井号若为中文字体的井号,则同样该第一井号对应的标签结束符号若为井号,可以是英文字体的井号,也可以是中文字体的井号。
在本申请实施例中,若标签起始符号与距离最近的标签结束符号之间,例如井号与空格符号、段落换行符号或下一个井号之间,有标点符号、POPO默认表情或其他特殊字符,不作断开,仍计作同一个标签的内容范围,例如:#进击吧!XX#为一个完整的文本标签。
204、若所述标签结束符号与所述标签起始符号的类型相同,则确定所述标签结束符号之后是否还存在新的标签结束符号,若是,则还将所述标签结束符号和所述新的标签结束符号之间的文本内容确定为所述待提取文本的目标主题。
在本申请实施例中,若标签结束符号的类型与标签起始符号的类型相同,例如以井号作为标签起始符号时,也以井号作为标签结束符号,若确定该标签结束符号之后存在新的标签结束符号,也将两个标签结束符号之间的文本内容作为一个目标主题。
本申请实施例中,在对待提取文本中的标签起始符号依次进行识别时,将识别到的第一个标签起始符号作为当前标签起始符号,若当前标签起始符号之后存在标签结束符号,将当前标签起始符号与标签结束符号之间的文本内容作为目标主题。其中,若标签结束符号与当前标签起始符号的类型相同,则将标签结束符号作为新的当前标签起始符号,返回执行识别当前标签起始符号之后是否存在预设的标签结束符号的步骤,直到对最后一个标签起始符号完成主题文本的识别。
在本申请实施例中,在第一井号之后距离最近的标签结束符号,也为井号,设为第二井号,则将该第二井号作为新的当前标签起始符号,返回执行上述步骤“识别当前标签起始符号之后是否存在预设的标签结束符号;若当前标签起始符号之后存在预设的标签结束符号,则将当前标签起始符号和标签结束符号之间的文本内容确定为待提取文本的目标主题”,直到对待提取文本中的最后一个井号完成识别。
在本申请实施例中,终端基于待提取文本中识别出的所有标签起始符号,确定出对应的所有目标主题。其中,待提取文本的目标主题可以是一个主题文本,也可以是由多个主题文本组成。
在本申请实施例中,在待提取文本中突出显示提取出的目标主题。其中,突出显示提取出的目标主题的方式可以包括多种,可以包括:终端获取目标主题对应的显示样式;在待提取文本中将目标主题以对应的显示样式进行显示,以区别目标主题与待提取文本中除目标主题以外的其他文本内容,其中显示样式包括如下至少一种:颜色、字体、显示尺寸。例如,在确定待提取文本的目标主题后,将目标主题标蓝处理,待提取文本中的其他文本内容则未标蓝,可以明显区分出目标主题。可选的,若目标主题包括多个主题文本,可以设置所有主题文本的显示样式相同,也可以设置每一个主题文本的显示样式不相同,进一步区分各个主题文本。其中,本申请对突出显示目标主题的方式不作限制。
在本申请的一种实施方式中,终端可以对目标主题中的各主题文本进行语义识别,得到各主题文本对应的语义向量;基于语义向量确定主题文本之间的语义层次;基于各主题文本的语义层次,获取各主题文本对应的显示样式,其中,不同语义层次的主题文本的显示样式不同。例如,在根据各主题文本对应的语音向量确定主题文本之间的语义层次后,假如有两个语义层次,设上位层次的主题文本的显示样式与下位层次的主题文本的显示样式不相同,例如设上位层次的主题文本的文字尺寸更大等等。
在本申请的一种实施方式中,终端可以基于各主题文本的语义层次,以及各主题文本在待提取文本中的位置,对待提取文本进行排版。例如,在根据各主题文本对应的语音向量确定主题文本之间的语义层次后,假如有三个语义层次,可以将最高层次的主题排在最前面,然后依据层次高低依次排列。可选的,也可以将最高层次的主题排在最前面且独占一行,后续层次也依次换行,可以利用自动换行实现。
在本申请实施例中,终端响应于针对文本编辑框的文本编辑操作,将文本编辑框中的用户输入文本作为待提取文本;当终端在待提取文本中突出显示提取出的目标主题之后,响应于针对待提取文本的发布操作,发布带有目标主题的待提取文本。其中,终端通过内容发布平台进行发布,可以是短视频APP,即时通讯APP等带有内容发布功能的平台。其中,存在较多的发布场景是:用户直接复制粘贴一段带有井号的文本,在分享时通过上述主题提取方法自动提取出其中的主题,例如,在用户通过对文本编辑框的文本编辑操作,在文本编辑框中输入复制的文本,在上述主题提取方法后,终端已经突出显示提取出的目标主题后,用户在内容发布平台上发布该文本,终端响应于针对该文本的发布操作,发布带有突出显示的目标主题的文本。
请参阅图7,图7为本申请实施例提供的主题提取方法的另一流程示意图。该主题提取方法可以针对于获取到复制粘贴的一段待提取文本的情形下,因此可以识别出所有的标签起始符号。其中,该主题提取方法的具体流程可以如下:在终端获取到待提取文本后,对该待提取文本中的标签起始符号进行识别。在终端识别出标签起始符号后,判断识别出的标签起始符号的数量,若终端识别出的标签起始符号的数量为一个,则确定该标签起始符号之后是否存在预设标签结束符号,若是,则基于标签起始符号和距离最近的标签结束符号之间的文本内容确定该目标主题。例如,在待提取文本中,对于某个井号,设为第一井号,判断在第一井号之后是否存在标签结束符号例如空格符号或段落换行符号,若存在,且设距离最近的标签结束符号为空格符号,则将第一井号与该空格符号之间的文本内容作为该第一井号对应的主题。若不存在,则该第一井号之后不存在可提取的文本标签。其中,如果第一井号与标签结束符号在待提取文本中是直接相邻的,则也就没有主题可以提取。
若终端识别出的标签起始符号的数量为至少两个,则确定顺序相邻的两个标签起始符号之间的文本内容中是否存在预设的标签结束符号,且预设标签结束符号与标签起始符号的类型不同,若是,则基于距离最近的预设标签结束符号与顺序相邻的两个标签起始符号在前的标签符号之间的文本内容确定目标主题,否则,若顺序相邻的两个标签起始符号中在后的标签起始符号为在前的标签起始符号对应的标签结束符号,则基于顺序相邻的两个标签起始符号之间的文本内容确定主题。例如,在待提取文本中,对于某个井号,设为第一井号,在第一井号之后与该第一井号相邻的第二井号之间的文本内容中,如果没有预设标签结束符号例如空格符号或段落换行符号时,则第一井号与第二井号之间的文本内容为提取出的一个目标主题。如果在第一井号与第二井号之间存在空格符号或段落换行符号,且空格符号为与第一井号距离最近的预设标签结束符号,则将第一井号与空格符号之间的文本内容也作为一个目标主题。
其中,若标签起始符号为至少两个标签起始符号中的最后一个,比如若顺序相邻的两个标签起始符号中在后的标签起始符号为最后一个标签起始符号且最后一个标签起始符号之后还存在标签结束符号,则还将最后一个标签起始符号和标签结束符号之间的文本内容确定为待提取文本的目标主题。以及,若标签结束符号为待提取文本中最后一个标签起始符号,确定该标签结束符号之后是否还存在标签结束符号,若是,则还将该标签结束符号和对应标签结束符号之间的文本内容确定为待提取文本的目标主题。
在本申请实施例中,通过上述的主题提取方法,在当前单井号和双井号两种标签形式共同存在的情况下,可以从待提取文本中准确提取出正确数量和内容的标签,也就是主题,还原用户的表达意愿。本方案支持例如空格符号、段落换行符号等分隔符号或井号作为标签结尾,能够同时兼容单井号和双井号两种标签模式的不同结尾,可以最大程度兼容单井号、双井号两种标识方式和单个、多个标签等场景的提取,降低遗漏标签和过度提取的概率,大大提高标签提取结果的准确度。
上述所有的技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
本申请实施例提供一种主题提取方法,在终端获取待提取文本,响应在待提取文本中识别出标签起始符号,确定标签起始符号之后是否存在预设的标签结束符号;若标签起始符号之后存在标签结束符号,将标签起始符号和标签结束符号之间的文本内容确定为该待提取文本的目标主题;若标签结束符号与标签起始符号的类型相同,则确定标签结束符号之后是否还存在新的标签结束符号,若是,则还将标签结束符号和新的标签结束符号之间的文本内容确定为待提取文本的目标主题。由此,本方案可以通过识别待提取文本中的每一个标签起始符号,判断是否存在预设的标签结束符号,将标签起始符号与标签结束符号之间的文本内容确定为待提取文本的标签,可以最大程度兼容单个、多个标签等场景的提取降低遗漏标签和过度提取的概率,进一步提高标签提取结果的准确度。
为了更好地实施本申请实施例的主题提取方法,相应的,本申请实施例还提供一种主题提取装置,该主题提取装置具体可以集成在计算机设备中,例如以终端的形式。
参考图8,图8为本申请实施例提供的主题提取装置的结构示意图。该主题提取装置包括获取单元701、第一确定单元702、第二确定单元703和第三确定单元704,如下:
获取单元701,用于获取待提取文本;
第一确定单元702,用于响应在所述待提取文本中识别出标签起始符号,确定所述标签起始符号之后是否存在预设的标签结束符号;
第二确定单元703,用于若所述标签起始符号之后存在所述标签结束符号,将所述标签起始符号和所述标签结束符号之间的文本内容确定为所述待提取文本的目标主题;
第三确定单元704,用于若所述标签结束符号与所述标签起始符号的类型相同,则确定所述标签结束符号之后是否还存在新的标签结束符号,若是,则还将所述标签结束符号和所述新的标签结束符号之间的文本内容确定为所述待提取文本的目标主题。
在一个可选的实施例中,所述标签结束符号包括第一标签符号,所述第一标签符号与所述标签起始符号的类型不同,所述第二确定单元703,还包括:
若所述标签起始符号的数量为至少两个,确定顺序相邻的两个标签起始符号之间的文本内容中是否存在所述第一标签符号;
若是,则将所述顺序相邻的两个标签起始符号在前的标签起始符号与距离最近的所述第一标签符号之间的文本内容确定为所述待提取文本的目标主题,若在后的标签起始符号为最后一个标签起始符号且所述最后一个标签起始符号之后还存在所述第一标签符号,则还将所述最后一个标签起始符号和所第一标签符号之间的文本内容确定为所述待提取文本的目标主题;
若否,确定所述顺序相邻的两个标签起始符号中在后的标签起始符号为在前的标签起始符号对应的标签结束符号,将所述顺序相邻的两个标签起始符号之间的文本内容确定为所述待提取文本的目标主题。
在一个可选的实施例中,所述第二确定单元703,还包括:
若所述标签结束符号为所述待提取文本中最后一个标签起始符号,确定所述标签结束符号之后是否还存在所述第一标签符号,若是,则还将所述标签结束符号和所述第一标签符号之间的文本内容确定为所述待提取文本的目标主题。
在一个可选的实施例中,所述第一确定单元702,还包括:
响应将识别出的第一个标签起始符号作为当前标签起始符号,识别所述当前标签起始符号之后是否存在预设的标签结束符号;
所述第二确定单元703,所述装置还包括:
若所述当前标签起始符号之后存在预设的标签结束符号,则将所述当前标签起始符号和所述标签结束符号之间的文本内容确定为所述待提取文本的目标主题。
在一个可选的实施例中,所述装置还包括:
若所述标签结束符号与所述当前标签起始符号的类型不同,识别所述标签结束符号之后是否还存在标签起始符号,若存在,将识别到的标签起始符号作为新的当前标签起始符号,返回执行所述识别所述当前标签起始符号之后是否存在预设的标签结束符号的步骤,直到对最后一个标签起始符号完成主题文本的识别。
在一个可选的实施例中,所述第三确定单元704,还包括:
若所述标签结束符号与所述当前标签起始符号的类型相同,则将所述标签结束符号作为新的当前标签起始符号,返回执行所述识别所述当前标签起始符号之后是否存在预设的标签结束符号的步骤,直到对最后一个标签起始符号完成主题文本的识别。
在一个可选的实施例中,所述第一确定单元702,还包括:
将所述当前标签起始符号与所述标签结束符号之间的文本内容,以及所述当前标签起始符号确定为所述目标主题;
所述装置还包括:
若所述当前标签起始符号之后不存在所述标签结束符号,且所述当前标签起始符号为在前的标签起始符号对应的标签结束符号,将所述当前标签起始符号作为所述在前的标签起始符号对应的目标主题的一部分。
在一个可选的实施例中,所述装置,还包括:
在所述待提取文本中突出显示提取出的所述目标主题。
在一个可选的实施例中,所述装置,还包括:
获取所述目标主题对应的显示样式;
在所述待提取文本中将所述目标主题以对应的显示样式进行显示,以区别所述目标主题与所述待提取文本中除所述目标主题以外的其他文本内容,其中所述显示样式包括如下至少一种:颜色、字体、显示尺寸。
在一个可选的实施例中,所述装置,还包括:
对所述目标主题中的各主题文本进行语义识别,得到各主题文本对应的语义向量;
基于所述语义向量确定主题文本之间的语义层次;
基于各主题文本的语义层次,获取各主题文本对应的显示样式,其中,不同语义层次的主题文本的显示样式不同。
在一个可选的实施例中,所述装置,还包括:
基于各主题文本的语义层次,以及各主题文本在所述待提取文本中的位置,对所述待提取文本进行排版。
在一个可选的实施例中,所述获取单元701,还包括:
响应于针对文本编辑框的文本编辑操作,将所述文本编辑框中的用户输入文本作为待提取文本;
所述在所述待提取文本中突出显示提取出的所述目标主题之后,还包括:
响应于针对所述待提取文本的发布操作,发布带有所述目标主题的所述待提取文本。
上述所有的技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
本申请实施例提供的主题提取装置,当获取单元701获取待提取文本;之后,第一确定单元702响应在所述待提取文本中识别出标签起始符号,确定所述标签起始符号之后是否存在预设的标签结束符号;然后,当第二确定单元703若所述标签起始符号之后存在所述标签结束符号,将所述标签起始符号和所述标签结束符号之间的文本内容确定为所述待提取文本的目标主题;最后,第三确定单元704若所述标签结束符号与所述标签起始符号的类型相同,则确定所述标签结束符号之后是否还存在新的标签结束符号,若是,则还将所述标签结束符号和所述新的标签结束符号之间的文本内容确定为所述待提取文本的目标主题。
相应的,本申请实施例还提供一种终端,该终端可以为智能手机、平板电脑、笔记本电脑、触控屏幕、游戏机、个人计算机(PC,Personal Computer)、个人数字助理(PersonalDigital Assistant,PDA)等计算机设备。如图9所示,图9为本发明实施例提供的终端800的结构示意图。该终端800包括有一个或者一个以上处理核心的处理器801、有一个或一个以上计算机可读存储介质的存储器802及存储在存储器802上并可在处理器上运行的计算机程序。其中,处理器801与存储器802电性连接。本领域技术人员可以理解,图中示出的终端800结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
处理器801是终端800的控制中心,利用各种接口和线路连接整个终端800的各个部分,通过运行或加载存储在存储器802内的软件程序和/或模块,以及调用存储在存储器802内的数据,执行终端800的各种功能和处理数据,从而对终端800进行整体监控。
在本申请实施例中,终端800中的处理器801会按照如下的步骤,将一个或一个以上的应用程序的进程对应的指令加载到存储器802中,并由处理器801来运行存储在存储器802中的应用程序,从而实现各种功能:
获取待提取文本;响应在所述待提取文本中识别出标签起始符号,确定所述标签起始符号之后是否存在预设的标签结束符号;若所述标签起始符号之后存在所述标签结束符号,将所述标签起始符号和所述标签结束符号之间的文本内容确定为所述待提取文本的目标主题;若所述标签结束符号与所述标签起始符号的类型相同,则确定所述标签结束符号之后是否还存在新的标签结束符号,若是,则还将所述标签结束符号和所述新的标签结束符号之间的文本内容确定为所述待提取文本的目标主题。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
可选的,如图9所示,终端800还包括:触控显示屏803、射频电路804、音频电路805、输入单元806以及电源807。其中,处理器801分别与触控显示屏803、射频电路804、音频电路805、输入单元806以及电源807电性连接。本领域技术人员可以理解,图5中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
触控显示屏803可用于显示图形用户界面以及接收用户作用于图形用户界面产生的操作指令。触控显示屏803可以包括显示面板和触控面板。其中,显示面板可用于显示由用户输入的信息或提供给用户的信息以及终端的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。可选的,可以采用液晶显示器(LCD,Liquid Crystal Display)、有机发光二极管(OLED,Organic Light-Emitting Diode)等形式来配置显示面板。触控面板可用于收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作),并生成相应的操作指令,且操作指令执行对应程序。可选的,触控面板可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器801,并能接收处理器801发来的命令并加以执行。触控面板可覆盖显示面板,当触控面板检测到在其上或附近的触摸操作后,传送给处理器801以确定触摸事件的类型,随后处理器801根据触摸事件的类型在显示面板上提供相应的视觉输出。在本发明实施例中,可以将触控面板与显示面板集成到触控显示屏803而实现输入和输出功能。但是在某些实施例中,触控面板与触控面板可以作为两个独立的部件来实现输入和输出功能。即触控显示屏803也可以作为输入单元806的一部分实现输入功能。
射频电路804可用于收发射频信号,以通过无线通信与网络设备或其他终端建立无线通讯,与网络设备或其他终端之间收发信号。
音频电路805可以用于通过扬声器、传声器提供用户与终端之间的音频接口。音频电路805可将接收到的音频数据转换后的电信号,传输到扬声器,由扬声器转换为声音信号输出;另一方面,传声器将收集的声音信号转换为电信号,由音频电路805接收后转换为音频数据,再将音频数据输出处理器801处理后,经射频电路804以发送给比如另一终端,或者将音频数据输出至存储器802以便进一步处理。音频电路805还可能包括耳塞插孔,以提供外设耳机与终端的通信。
输入单元806可用于接收输入的数字、字符信息或用户特征信息(例如指纹、虹膜、面部信息等),以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
电源807用于给终端800的各个部件供电。可选的,电源807可以通过电源管理系统与处理器801逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源807还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管图9中未示出,终端800还可以包括摄像头、传感器、无线保真模块、蓝牙模块等,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
由上可知,本实施例提供的终端,可以获取待提取文本;响应在所述待提取文本中识别出标签起始符号,确定所述标签起始符号之后是否存在预设的标签结束符号;若所述标签起始符号之后存在所述标签结束符号,将所述标签起始符号和所述标签结束符号之间的文本内容确定为所述待提取文本的目标主题;若所述标签结束符号与所述标签起始符号的类型相同,则确定所述标签结束符号之后是否还存在新的标签结束符号,若是,则还将所述标签结束符号和所述新的标签结束符号之间的文本内容确定为所述待提取文本的目标主题。本方案可以降低遗漏标签和过度提取的概率,进一步提高标签提取结果的准确度。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条计算机程序,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的任一种标签提取方法中的步骤。例如,该计算机程序可以执行如下步骤:
获取待提取文本;响应在所述待提取文本中识别出标签起始符号,确定所述标签起始符号之后是否存在预设的标签结束符号;若所述标签起始符号之后存在所述标签结束符号,将所述标签起始符号和所述标签结束符号之间的文本内容确定为所述待提取文本的目标主题;若所述标签结束符号与所述标签起始符号的类型相同,则确定所述标签结束符号之后是否还存在新的标签结束符号,若是,则还将所述标签结束符号和所述新的标签结束符号之间的文本内容确定为所述待提取文本的目标主题。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
以上对本申请实施例所提供的一种主题提取方法、装置、终端及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想;本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例的技术方案的范围。

Claims (14)

1.一种主题提取方法,其特征在于,包括:
获取待提取文本;
响应在所述待提取文本中识别出标签起始符号,确定所述标签起始符号之后是否存在预设的标签结束符号,所述标签结束符号包括第一标签符号,所述第一标签符号与所述标签起始符号的类型不同;
若所述标签起始符号的数量为至少两个,确定顺序相邻的两个标签起始符号之间的文本内容中是否存在所述第一标签符号;
若是,则将所述顺序相邻的两个标签起始符号在前的标签起始符号与距离最近的所述第一标签符号之间的文本内容确定为所述待提取文本的目标主题,若在后的标签起始符号为最后一个标签起始符号且所述最后一个标签起始符号之后还存在所述第一标签符号,则还将所述最后一个标签起始符号和所述第一标签符号之间的文本内容确定为所述待提取文本的目标主题;
若否,确定所述顺序相邻的两个标签起始符号中在后的标签起始符号为在前的标签起始符号对应的标签结束符号,将所述顺序相邻的两个标签起始符号之间的文本内容确定为所述待提取文本的目标主题;
若所述标签结束符号与所述标签起始符号的类型相同,则确定所述标签结束符号之后是否还存在新的标签结束符号,若是,则还将所述标签结束符号和所述新的标签结束符号之间的文本内容确定为所述待提取文本的目标主题。
2.根据权利要求1所述的主题提取方法,其特征在于,所述若所述标签起始符号之后存在预设的标签结束符号,将所述标签起始符号和所述标签结束符号之间的文本内容确定为所述待提取文本的目标主题,包括:
若所述标签结束符号为所述待提取文本中最后一个标签起始符号,确定所述标签结束符号之后是否还存在所述第一标签符号,若是,则还将所述标签结束符号和所述第一标签符号之间的文本内容确定为所述待提取文本的目标主题。
3.根据权利要求1所述的主题提取方法,其特征在于,所述响应在所述待提取文本中识别出标签起始符号,确定所述标签起始符号之后是否存在标签结束符号,包括:
响应将识别出的第一个标签起始符号作为当前标签起始符号,识别所述当前标签起始符号之后是否存在预设的标签结束符号;
所述若所述标签起始符号之后存在预设的标签结束符号,将所述标签起始符号和所述标签结束符号之间的文本内容确定为所述待提取文本的目标主题,包括:
若所述当前标签起始符号之后存在预设的标签结束符号,则将所述当前标签起始符号和所述标签结束符号之间的文本内容确定为所述待提取文本的目标主题。
4.根据权利要求3所述的主题提取方法,其特征在于,所述方法还包括:
若所述标签结束符号与所述当前标签起始符号的类型不同,识别所述标签结束符号之后是否还存在标签起始符号,若存在,将识别到的标签起始符号作为新的当前标签起始符号,返回执行所述识别所述当前标签起始符号之后是否存在预设的标签结束符号的步骤,直到对最后一个标签起始符号完成主题文本的识别。
5.根据权利要求3所述的主题提取方法,其特征在于,所述若所述标签结束符号与所述标签起始符号的类型相同,则确定所述标签结束符号之后是否还存在新的标签结束符号,若是,则还将所述标签结束符号和所述新的标签结束符号之间的文本内容确定为所述待提取文本的目标主题,包括:
若所述标签结束符号与所述当前标签起始符号的类型相同,则将所述标签结束符号作为新的当前标签起始符号,返回执行所述识别所述当前标签起始符号之后是否存在预设的标签结束符号的步骤,直到对最后一个标签起始符号完成主题文本的识别。
6.根据权利要求3所述的主题提取方法,其特征在于,所述将所述当前标签起始符号和所述标签结束符号之间的文本内容确定为所述待提取文本的目标主题,包括:
将所述当前标签起始符号与所述标签结束符号之间的文本内容,以及所述当前标签起始符号确定为所述目标主题;
所述方法还包括:
若所述当前标签起始符号之后不存在所述标签结束符号,且所述当前标签起始符号为在前的标签起始符号对应的标签结束符号,将所述当前标签起始符号作为所述在前的标签起始符号对应的目标主题的一部分。
7.根据权利要求1所述的主题提取方法,其特征在于,所述方法还包括:
在所述待提取文本中突出显示提取出的所述目标主题。
8.根据权利要求7所述的主题提取方法,其特征在于,所述在所述待提取文本中突出显示提取出的所述目标主题,包括:
获取所述目标主题对应的显示样式;
在所述待提取文本中将所述目标主题以对应的显示样式进行显示,以区别所述目标主题与所述待提取文本中除所述目标主题以外的其他文本内容,其中所述显示样式包括如下至少一种:颜色、字体、显示尺寸。
9.根据权利要求8所述的主题提取方法,其特征在于,所述获取所述目标主题对应的显示样式,包括:
对所述目标主题中的各主题文本进行语义识别,得到各主题文本对应的语义向量;
基于所述语义向量确定主题文本之间的语义层次;
基于各主题文本的语义层次,获取各主题文本对应的显示样式,其中,不同语义层次的主题文本的显示样式不同。
10.根据权利要求9所述的主题提取方法,其特征在于,所述方法还包括:
基于各主题文本的语义层次,以及各主题文本在所述待提取文本中的位置,对所述待提取文本进行排版。
11.根据权利要求7所述的主题提取方法,其特征在于,所述获取待提取文本包括:
响应于针对文本编辑框的文本编辑操作,将所述文本编辑框中的用户输入文本作为待提取文本;
所述在所述待提取文本中突出显示提取出的所述目标主题之后,还包括:
响应于针对所述待提取文本的发布操作,发布带有所述目标主题的所述待提取文本。
12.一种主题提取装置,其特征在于,包括:
获取单元,用于获取待提取文本;
第一确定单元,用于响应在所述待提取文本中识别出标签起始符号,确定所述标签起始符号之后是否存在预设的标签结束符号,所述标签结束符号包括第一标签符号,所述第一标签符号与所述标签起始符号的类型不同;
第二确定单元,用于若所述标签起始符号的数量为至少两个,确定顺序相邻的两个标签起始符号之间的文本内容中是否存在所述第一标签符号;
若是,则将所述顺序相邻的两个标签起始符号在前的标签起始符号与距离最近的所述第一标签符号之间的文本内容确定为所述待提取文本的目标主题,若在后的标签起始符号为最后一个标签起始符号且所述最后一个标签起始符号之后还存在所述第一标签符号,则还将所述最后一个标签起始符号和所述第一标签符号之间的文本内容确定为所述待提取文本的目标主题;
若否,确定所述顺序相邻的两个标签起始符号中在后的标签起始符号为在前的标签起始符号对应的标签结束符号,将所述顺序相邻的两个标签起始符号之间的文本内容确定为所述待提取文本的目标主题;
第三确定单元,用于若所述标签结束符号与所述标签起始符号的类型相同,则确定所述标签结束符号之后是否还存在新的标签结束符号,若是,则还将所述标签结束符号和所述新的标签结束符号之间的文本内容确定为所述待提取文本的目标主题。
13.一种终端,其特征在于,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如权利要求1-11任一项所述主题提取方法的步骤。
14.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1-11任一项所述主题提取方法的步骤。
CN202111124276.7A 2021-09-24 2021-09-24 一种主题提取方法、装置、终端及存储介质 Active CN113836905B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111124276.7A CN113836905B (zh) 2021-09-24 2021-09-24 一种主题提取方法、装置、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111124276.7A CN113836905B (zh) 2021-09-24 2021-09-24 一种主题提取方法、装置、终端及存储介质

Publications (2)

Publication Number Publication Date
CN113836905A CN113836905A (zh) 2021-12-24
CN113836905B true CN113836905B (zh) 2023-08-08

Family

ID=78969898

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111124276.7A Active CN113836905B (zh) 2021-09-24 2021-09-24 一种主题提取方法、装置、终端及存储介质

Country Status (1)

Country Link
CN (1) CN113836905B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011150603A (ja) * 2010-01-22 2011-08-04 Nippon Telegr & Teleph Corp <Ntt> カテゴリ主題語句抽出装置及び階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2015121952A (ja) * 2013-12-24 2015-07-02 株式会社デンソー 逆走検出装置
CN107436922A (zh) * 2017-07-05 2017-12-05 北京百度网讯科技有限公司 文本标签生成方法和装置
CN108304562A (zh) * 2018-02-08 2018-07-20 广东小天才科技有限公司 一种搜题方法、搜题装置及智能终端
CN109284503A (zh) * 2018-10-22 2019-01-29 传神语联网网络科技股份有限公司 翻译语句结束判断方法与系统
CN110688822A (zh) * 2019-09-27 2020-01-14 上海智臻智能网络科技股份有限公司 标点符号的添加方法及设备、介质
CN110866402A (zh) * 2019-11-18 2020-03-06 北京香侬慧语科技有限责任公司 一种命名实体识别的方法、装置、存储介质及电子设备
CN111814475A (zh) * 2019-04-09 2020-10-23 Oppo广东移动通信有限公司 用户画像构建方法、装置、存储介质和电子设备
CN112101353A (zh) * 2020-09-23 2020-12-18 广州虎牙科技有限公司 文本信息提取方法、装置、电子设备及存储介质
JP2021022292A (ja) * 2019-07-30 2021-02-18 株式会社三菱総合研究所 情報処理装置、プログラム及び情報処理方法
CN112434510A (zh) * 2020-11-24 2021-03-02 北京字节跳动网络技术有限公司 一种信息处理方法、装置、电子设备和存储介质
CN112579937A (zh) * 2019-09-30 2021-03-30 北京国双科技有限公司 一种字符的高亮显示方法及装置
CN113128241A (zh) * 2021-05-17 2021-07-16 口碑(上海)信息技术有限公司 文本识别方法、装置及设备
CN113238747A (zh) * 2021-05-11 2021-08-10 北京沃东天骏信息技术有限公司 一种自适应容器展示的标签生成方法和系统

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011150603A (ja) * 2010-01-22 2011-08-04 Nippon Telegr & Teleph Corp <Ntt> カテゴリ主題語句抽出装置及び階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2015121952A (ja) * 2013-12-24 2015-07-02 株式会社デンソー 逆走検出装置
CN107436922A (zh) * 2017-07-05 2017-12-05 北京百度网讯科技有限公司 文本标签生成方法和装置
CN108304562A (zh) * 2018-02-08 2018-07-20 广东小天才科技有限公司 一种搜题方法、搜题装置及智能终端
CN109284503A (zh) * 2018-10-22 2019-01-29 传神语联网网络科技股份有限公司 翻译语句结束判断方法与系统
CN111814475A (zh) * 2019-04-09 2020-10-23 Oppo广东移动通信有限公司 用户画像构建方法、装置、存储介质和电子设备
JP2021022292A (ja) * 2019-07-30 2021-02-18 株式会社三菱総合研究所 情報処理装置、プログラム及び情報処理方法
CN110688822A (zh) * 2019-09-27 2020-01-14 上海智臻智能网络科技股份有限公司 标点符号的添加方法及设备、介质
CN112579937A (zh) * 2019-09-30 2021-03-30 北京国双科技有限公司 一种字符的高亮显示方法及装置
CN110866402A (zh) * 2019-11-18 2020-03-06 北京香侬慧语科技有限责任公司 一种命名实体识别的方法、装置、存储介质及电子设备
CN112101353A (zh) * 2020-09-23 2020-12-18 广州虎牙科技有限公司 文本信息提取方法、装置、电子设备及存储介质
CN112434510A (zh) * 2020-11-24 2021-03-02 北京字节跳动网络技术有限公司 一种信息处理方法、装置、电子设备和存储介质
CN113238747A (zh) * 2021-05-11 2021-08-10 北京沃东天骏信息技术有限公司 一种自适应容器展示的标签生成方法和系统
CN113128241A (zh) * 2021-05-17 2021-07-16 口碑(上海)信息技术有限公司 文本识别方法、装置及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于微博标签和LDA的微博主题提取算法;邓丹君;姚莉;;计算机与数字工程(第05期);全文 *

Also Published As

Publication number Publication date
CN113836905A (zh) 2021-12-24

Similar Documents

Publication Publication Date Title
US11481428B2 (en) Bullet screen content processing method, application server, and user terminal
US11176453B2 (en) System and method for detangling of interleaved conversations in communication platforms
CN108804469B (zh) 一种网页识别方法以及电子设备
CN108777806B (zh) 一种用户身份识别方法、装置和存储介质
CN107885826A (zh) 多媒体文件播放方法、装置、存储介质及电子设备
CN112163577A (zh) 游戏画面中的文字识别方法、装置、电子设备和存储介质
CN113395202A (zh) 一种会话管理方法、装置、计算机设备和存储介质
CN114205447B (zh) 电子设备的快捷设置方法、装置、存储介质及电子设备
CN112181253A (zh) 信息显示方法、装置和电子设备
CN114095782A (zh) 一种视频处理方法、装置、计算机设备及存储介质
CN113836905B (zh) 一种主题提取方法、装置、终端及存储介质
JP4896935B2 (ja) 文字修飾サーバ、装置、方法及びシステム
CN113099033A (zh) 信息发送方法、信息发送装置和电子设备
CN115410235A (zh) 指纹录入方法、装置、存储介质以及终端
CN111352685B (zh) 一种输入法键盘的展示方法、装置、设备及存储介质
CN113609154A (zh) 一种数据查询方法、装置、电子设备和存储介质
CN114489858B (zh) 应用软件信息设置方法、装置、终端设备及存储介质
CN117725108A (zh) 数据挖掘方法、装置、电子设备和计算机可读存储介质
EP4216514A1 (en) Information processing method, terminal device, and distributed network
CN108829863B (zh) 信息预测方法、装置、存储介质及终端
CN113360054A (zh) 评论信息显示方法、装置及存储介质
CN108733814B (zh) 搜索引擎预加载方法、装置、存储介质及终端
CN117726714A (zh) 封面图片的生成方法、装置、电子设备和可读存储介质
CN114691623A (zh) 外链文件读取方法、装置、计算机设备及存储介质
CN113821832A (zh) 验证文本的自动识别方法和自动识别装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant