CN112307198A - 一种单文本的摘要确定方法和相关装置 - Google Patents
一种单文本的摘要确定方法和相关装置 Download PDFInfo
- Publication number
- CN112307198A CN112307198A CN202011328977.8A CN202011328977A CN112307198A CN 112307198 A CN112307198 A CN 112307198A CN 202011328977 A CN202011328977 A CN 202011328977A CN 112307198 A CN112307198 A CN 112307198A
- Authority
- CN
- China
- Prior art keywords
- text
- vector
- search
- participle
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 239000013598 vector Substances 0.000 claims abstract description 307
- 230000011218 segmentation Effects 0.000 claims abstract description 125
- 230000015654 memory Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 abstract description 30
- 238000013473 artificial intelligence Methods 0.000 abstract description 14
- 238000003058 natural language processing Methods 0.000 abstract description 12
- 238000010801 machine learning Methods 0.000 abstract description 9
- 230000000875 corresponding effect Effects 0.000 description 99
- 238000005516 engineering process Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 7
- 235000019580 granularity Nutrition 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 238000007726 management method Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 3
- 239000002131 composite material Substances 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种单文本的摘要确定方法和相关装置,至少涉及人工智能中的自然语言处理和机器学习,针对基于检索串确定的目标文本,以目标文本中多个分词分别对应的分词向量,以及检索串中检索词对应的检索词向量确定每个分词的相关度参数。确定目标文本的文本向量时,除了需要依据分词的分词向量,还会参考分词的相关度参数,由此生成的文本向量中会强化与用户意图相关分词的信息,弱化与用户意图不相关分词的信息,起到了基于用户意图选择文本向量中信息的作用。由于该文本向量中携带更多与用户意图相关分词的信息,通过该文本向量确定出的摘要内容会更贴近检索串示出的用户意图,从而根据用户意图动态生成摘要内容,提高用户的阅读体验。
Description
技术领域
本申请涉及数据处理领域,特别是涉及一种单文本的摘要确定方法和相关装置。
背景技术
摘要可以体现原始文档中的重要信息,而且篇幅一般远小于原始文档,用户可以通过阅读摘要来了解原始文档主旨思想的目的,从而可以从大量原始文档中快速找到符合自身需求的文档,避免了大篇幅内容阅读的筛查时间。
相关技术中,可以通过自动摘要技术,根据神经网络模型基于语义理解原始文档的内容,并以此自动从原始文档中提取重要信息来生成对应的摘要。
然而,随着用户的阅读需求日渐丰富,上述摘要提取方式生成的摘要越来越难以满足用户需求。
发明内容
为了解决上述技术问题,本申请提供了一种单文本的摘要确定方法和相关装置,在对原始文档生成摘要时,可以满足用户的需求。
本申请实施例公开了如下技术方案:
一方面,本申请提供一种单文本的摘要确定方法,所述方法包括:
获取基于检索串确定的目标文本,所述检索串包括至少一个检索词,所述目标文本包括多个分词;
确定所述检索词对应的检索词向量,以及所述分词对应的分词向量;
根据所述检索词向量和所述分词向量,确定所述分词相对于所述检索串的相关度参数;
通过所述多个分词分别对应的相关度参数以及分词向量,得到所述目标文本的文本向量;
基于所述文本向量生成所述目标文本对应的摘要内容。
另一方面,本申请提供一种单文本的摘要确定装置,所述装置包括:第一获取单元、第一确定单元、第二确定单元、第二获取单元和生成单元;
所述第一获取单元,用于获取基于检索串确定的目标文本,所述检索串包括至少一个检索词,所述目标文本包括多个分词;
所述第一确定单元,用于确定所述检索词对应的检索词向量,以及所述分词对应的分词向量;
所述第二确定单元,用于根据所述检索词向量和所述分词向量,确定所述分词相对于所述检索串的相关度参数;
所述第二获取单元,用于通过所述多个分词分别对应的相关度参数以及分词向量,得到所述目标文本的文本向量;
所述生成单元,用于基于所述文本向量生成所述目标文本对应的摘要内容。
另一方面,本申请提供一种计算机设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行上述方面所述的方法。
另一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述方面所述的方法。
另一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面所述的方法。
由上述技术方案可以看出,针对基于检索串确定的目标文本,可以目标文本中多个分词分别对应的分词向量,以及检索串中检索词对应的检索词向量确定每个分词的相关度参数。其中,一个分词的相关度参数表示这个分词与检索串的相关程度,由于检索串可以体现以该检索串进行检索时的用户意图,从而通过相关度参数可以体现出目标文本中哪些分词与用户意图更为相关,哪些分词与用户意图不太相关。在确定目标文本的文本向量时,除了需要依据分词的分词向量,还会参考分词的前述相关度参数,由此生成的文本向量中,会强化与用户意图相关分词的信息,弱化与用户意图不相关分词的信息,从而起到了基于用户意图选择文本向量中信息的作用,根据以此得到的文本向量来确定目标文本对应的摘要内容时,由于该文本向量中携带更多与用户意图相关分词的信息,确定出的摘要内容将会更贴近检索串示出的用户意图,从而提高了用户的阅读体验。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种单文本的摘要确定方法的应用场景示意图;
图2为本申请实施例提供的一种单文本的摘要确定方法的流程示意图;
图3为本申请实施例提供的一种确定相关度参数的示意图;
图4为本申请实施例提供的一种确定分词相对于目标文本的重要性参数的示意图;
图5为本申请实施例提供的一种单文本的摘要确定方法的应用场景示意图;
图6为本申请实施例提供的一种单文本的摘要确定装置的示意图;
图7为本申请实施例提供的服务器的结构示意图;
图8为本申请实施例提供的终端设备的结构示意图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
鉴于相关技术中基于语义从原始文档的内容中提取重要信息生成摘要的方式无法满足用户需求,本申请实施例提供一种单文本的摘要确定方法和相关装置,实现了在对原始文档生成摘要时,能够满足用户的需求。
本申请实施例提供的单文本的摘要确定方法是基于人工智能实现的,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
在本申请实施例中,主要涉及的人工智能软件技术包括上述自然语言处理、机器学习/深度学习等方向。例如,可以涉及自然语言处理(Nature Language processing,NLP)中的语义理解(Semantic understanding)、机器人问答,包括问题理解(queryunderstanding)、答案抽取(Answer extraction)、答案论证(Answer argument),也可以涉及机器学习(Machine learning,ML)中的深度学习(Deep Learning),包括各类人工神经网络(Artificial Neural Network,ANN)。
本申请提供的单文本的摘要确定方法可以应用于具有数据处理能力的单文本的摘要确定设备,如终端设备、服务器。其中,终端设备具体可以为智能手机、台式计算机、笔记本电脑、平板电脑、智能音箱、智能手表等,但并不局限于此;服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
该单文本的摘要确定设备可以具备实施自然语言处理的能力,自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。在本申请实施例中,文本处理设备可以通过自然语言处理中的文本预处理、语义理解等技术对文本进行处理。
该单文本的摘要确定设备可以具备机器学习能力。机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络等技术。
在本申请实施例提供的单文本的摘要确定方法中,采用的人工智能模型主要涉及对自然语言处理的应用,通过自然语言处理实现生成与用户意图相关的摘要内容。
此外,本申请实施例提供的文本处理设备还具备云计算能力。云计算(cloudcomputing)指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。云计算是网格计算(GridComputing)、分布式计算(Distributed Computing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network Storage Technologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。
随着互联网、实时数据流、连接设备多样化的发展,以及搜索服务、社会网络、移动商务和开放协作等需求的推动,云计算迅速发展起来。不同于以往的并行分布式计算,云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。
在本申请实施例中,单文本的摘要确定设备可以利用云计算技术,对基于检索串确定出的目标文本进行处理,以便根据处理得到的与表征用户意图的检索串相关的摘要内容。
为了便于理解本申请的技术方案,下面结合实际应用场景,以终端设备作为单文本的摘要确定设备对本申请实施例提供的单文本的摘要确定方法进行介绍。
参见图1,图1为本申请实施例提供的一种单文本的摘要确定方法的应用场景示意图。在图1所示的应用场景中,包括终端设备100,用于生成用户检索时,通过检索串确定的目标文本对应的摘要内容。
在实际应用中,用户可以在终端设备100所提供的搜索界面,输入与用户意图对应的检索串,检索串至少包括一个检索词。为了突出本案动态生成摘要内容的特点,以两次采用不同检索串检索到同一个目标文本为例进行说明。
例如,在图1所示的场景中,用户进行了两次检索,第一次检索时用户输入检索串A,检索串A包括一个检索词a。第二次检索时用户输入检索串B,检索串B包括一个检索词b。在图1示出的场景中,检索串A和检索串B虽是同一个用户通过同一个终端设备100输入的,但是并不构成对本申请的限定,例如检索串A和检索串B也可以是通过不同用户、不同终端设备输入的。
例如,用户在网络平台上购买某产品,第一次用户关注该产品的价格,输入了包括检索词a:价格的检索串A,第二次用户关注该产品的型号,输入了包括检索词b:型号的检索串B。
终端设备100根据用户输入的检索串确定对应的目标文本,目标文本是基于检索串的搜索结果,例如可以为文档、新闻等数据结构。其中,目标文本包括多个分词,分词为组成目标文本的基本单位,例如,基于划分粒度的不同,分词可以为句子、词组、单词等数据结构。在图1所示的场景中,第一次检索获取基于检索串A确定的目标文本,第二次检索获取基于检索串B确定的目标文本。两次获取的目标文本相同,该目标文本包括分词1、分词2和分词3。
然后,确定分词对应的词向量,以及检索词对应的检索词向量,并根据分词向量和检索词向量确定每个分词相对于检索串的相关度参数。其中,一个分词的相关度参数表示这个分词与检索串的相关程度。在图1所示的场景中,第一次检索确定了检索词a对应的检索词向量Ua、多个分词分别对应的分词向量h1、分词向量h2和分词向量h3,分词1的相关度参数a′1a根据检索词向量Ua和分词向量h1确定,同理,分词2的相关度参数a′2a根据检索词向量Ua和分词向量h2确定,分词3的相关度参数a′3a根据检索词向量Ua和分词向量h3确定。其中,与检索串相关程度的排序可以为分词1与检索串A最相关,分词2次之,分词3最不相关,以a′1a>a′2a>a′3a表示。在第二次检索确定了检索词b对应的检索词向量Ub,多个分词分别对应的分词向量h1、分词向量h2和分词向量h3,以及每个分词对应的相关度参数a′1b、a′2b和a′3b。其中,a′1b<a′2b<a′3b。
在确定目标文本的文本向量时,不再仅依据分词的分词向量,还会依据每个分词对应的相关度参数进行确定,并根据得到的文本向量确定目标文本对应的摘要内容。在图1所示的场景中,第一次检索时,根据分词向量h1、分词向量h2和分词向量h3,以及对应的相关度参数a′1a、a′2a和a′3a得到目标文本的文本向量A,若仅需要两个分词表示摘要内容,由于a′1a>a′2a>a′3a,则文本向量A生成的摘要内容与分词1和分词2相关。在第二次检索时,根据分词向量h1、分词向量h2和分词向量h3,以及对应的相关度参数a′1b、a′2b和a′3b得到目标文本的文本向量B,若仅需要两个分词表示摘要内容,由于a′1b<a′2b<a′3b,则文本向量B生成的摘要内容与分词2和分词3相关。
基于上述可知,虽然第一次检索和第二次检索均获取了相同的目标文本,但由于两次检索的检索串对应的用户意图不同,目标文本中每个分词的相关度参数不同,生成的文本向量会强化与用户意图相关分词的信息,弱化与用户意图不相关分词的信息,从而获得了与用户意图相关的文本向量,以此生成更加符合用户意图的摘要内容,即第一次检索生成的摘要内容更贴近检索串A,第二次检索生成的摘要内容更贴近检索串B,从而提高了用户的阅读体验。
下面结合附图,以终端设备作为单文本的摘要确定设备,对本申请实施例提供的一种单文本的摘要确定方法进行介绍。
参见图2,图2为本申请实施例提供的一种单文本的摘要确定方法的流程示意图。如图2所示,该文本处理方法包括以下步骤:
S201:获取基于检索串确定的目标文本。
在实际应用中,用户可以在终端设备所提供的搜索界面中输入检索串,将用户意图以检索串的形式进行检索,该检索串包括至少一个检索词。例如,当用户想获取关于某产品的相关信息,可以在搜索界面中输入检索串:某产品,在该检索串中仅包括一个检索词。又如,当用户想获取关于某产品特定功能的相关信息时,可以在搜索界面中输入检索串:某产品、特定功能,在该检索串中包括两个检索词。
终端设备根据检索串能够获得对应的目标文本,例如,终端设备在获取目标用户对应的检索串后,根据该检索串获取至少包括目标文本的文本检索结果,其中,该检索串用于标识目标用户的检索意图。该目标文本是基于检索串的检索结果,例如,目标文本可以为基于检索串获得的一篇文档、一篇新闻等数据结构。其中,目标文本为单文本,包括多个分词,分词为组成目标文本的基本单位,例如,基于划分粒度的不同,分词可以为句子、词组、单词等数据结构。基于不同的检索串可以获得不同的目标文本,也可以获得相同的目标文本,在此不做任何限定。例如,当检索串为某产品、产品简介,此时目标文本为某产品的产品手册,当检索串为某产品、功能菜单,此时目标文本还是为某产品的产品手册。
S202:确定所述检索词对应的检索词向量,以及所述分词对应的分词向量。
为了使用户能够快速了解目标文本的重要信息,相关技术中使用神经网络模型基于语义理解目标文本的内容,并自动从目标文本中提取重要信息来生成对应的摘要内容,但是该种方式生成的摘要内容是静态的,目标文本的内容确定后该静态的摘要内容就不会发生变化,无法符合所有用户的用户意图。例如,在上述例子中,检索串不论是某产品、产品简介还是某产品、功能菜单,获得的目标文本都是某产品的产品手册,采用相关技术生成的摘要内容为该产品手册的简要说明,但是用户想要的是针对产品手册中关于产品简介或功能菜单的摘要内容,而不是产品手册的简要说明,该静态的摘要内容不满足用户的意图。
基于此,为了提升用户的阅读体验,本申请基于用户的用户意图动态生成目标文本对应的摘要内容,使生成的摘要内容能够符合所有用户当前检索对应的用户意图。由此,本申请实施例采用基于用户意图的信息选择算法(Query-Based Selective Encoder,QBS-Encoder)的方式对目标文本进行编码,不仅确定目标文本中多个分词分别对应的分词向量,还确定检索词对应的检索词向量,从而结合体现用户意图的检索词对应的检索词向量获得目标文本的文本向量,以便生成符合用户意图的摘要内容。
S203:根据所述检索词向量和所述分词向量,确定所述分词相对于所述检索串的相关度参数。
目标文本中包括多个分词,每个分词与用户意图的相关程度可能存在差异,例如有的分词与用户意图相关,有的分词与用户意图不相关,所以基于目标文本中所有分词生成的静态摘要内容不能符合所有用户的用户意图。为了使生成的摘要内容更加符合用户意图,在针对目标文本生成摘要时,突出与用户意图相关的分词。
由此,在获得检索词向量和分词向量后,可以依据检索词向量和分词向量确定每个分词相对于检索串的相关度参数。其中,一个分词的相关度参数表示这个分词与检索串的相关程度,相关程度越高表明该分词越符合用户意图,从而通过相关度参数可以体现出目标文本中哪些分词与用户意图更为相关,哪些分词与用户意图不太相关,进而可以有侧重点的基于目标文本生成动态摘要内容。
可以理解的是,用户希望通过更多的检索词明确自己的用户意图,从而获得更为准确的检索结果。当检索串包括多个检索词时,该检索串体现了更加丰富的用户意图,若采用为用户意图打标签等分类的方式确定用户意图,会损失多个检索词对应的多个用户意图,降低用户的阅读体验。例如,检索词A对应的类别为类别I,检索词B对应的类别也为类别I,当检索串中包括检索词A和检索词B时,会将该检索串划分为类别I然后基于该类别I生成对应的摘要内容时,该种方式会损失检索词A和检索词B真正表达的含义,将用户的用户意图概括为类别I,从而损失了多个检索词对应的多个用户意图。而且,采用上述方式还需要将用户意图预先划分为多个类别,人工划分类别的方式不仅带有主观性,而且无法穷举所有的类别,造成无法涵盖所有的用户意图的问题。
基于此,为了能考虑用户的全部意图,本申请通过分析用户意图和分词的相关性明确用户意图,针对多个检索词的情况,根据每个分词向量和每个检索词向量,先确定分词相对于检索串中每个检索词的子相关度参数,然后根据多个子相关度参数确定该分词相对检索串的相关度参数,从而细化分词与用户意图的相关程度,提高相关度参数的可信度。下面对此进行具体说明。
确定每个分词向量分别对应检索串中每个检索词向量的子相关度参数,参见公式(1):
Sij=fs(hi,uj) (1)
其中,Sij表示目标文本中第i个分词与检索串中第j个检索词的子相关度参数;目标文本共包括I个分词,hi表示第i个分词的分词向量,i∈I,i与I均为整数,I>1;检索串共包括J个检索词,uj表示第j个检索词的检索词向量,j∈J,j与J均为整数,J>0。
fs(hi,uj)为分词向量hi与检索词向量uj子相关度参数计算函数,参见公式(2):
确定子相关度参数后,可以根据子相关度参数得到每个分词相对于检索串的相关度参数。例如,可以将获得的子相关度参数进行归一化指数函数softmax操作,获得相关度参数,每个相关度参数的范围都在(0,1)之间。参见公式(3):
a′i=softmax(∑JSij) (3)
其中,ai′表示目标文本中第i个分词相对于检索串的相关度参数。
参见图3,该图为本申请实施例提供的一种确定相关度参数的示意图。在图3中,目标文本包括I个分词,I个分词对应I个分词向量,检索串包括J个检索词,J个检索词对应J个检索词向量。
确定I个分词向量分别对应J个检索词向量的子相关度参数,形成目标文本与检索串之间的相似度矩阵。以图3中相似度矩阵第一列为例,表示第一个分词向量h1与J个检索词向量uj的J个子相关度参数,分别为S11、S12、···、S1J,其中,子相关度参数S11表示分词向量h1与检索串中第一个检索词向量u1的相关程度,依次类推。
在确定I个分词向量分别对应的J个检索词向量的I×J个子相关度参数后,根据I×J个子相关度参数确定I个分词相对于检索串的I个相关度参数。以图3中相似度矩阵第一列为例,在获取针对第一个分词向量的J个子相关度参数后,求和∑JS1j后,对其进行softmax操作,获得第一个分词向量对应的相关度参数a′1。同理,获得I个分词相对于检索串的I个相关度参数,从图3中可以看出,每个分词相对于检索串的相关度参数不同,其中,目标文本中第三个分词、第五个分词和第I个分词相较于其他分词与检索串的相关度程度高。
其中,在获取针对第i个分词向量的J个子相关度参数后,可以进行降维求和(Reduce sum)操作,以便于提取子相关度参数中主要的特征分量。
S204:通过所述多个分词分别对应的相关度参数以及分词向量,得到所述目标文本的文本向量。
由前述可知,由于每个分词与检索串的相关程度可能存在差异,故每个分词的相关度参数可能会存在不同,在确定目标文本的文本向量时,不再仅基于多个分词分别对应的分词向量生成目标文本的文本向量,而是将每个分词相对于检索串的相关度参数也作为参考,基于多个分词分别对应的相关度参数和多个分词分别对应的分词向量共同确定目标文本的文本向量。
例如,结合每个分词向量与其对应的相关度参数更新每个分词向量的表示,基于更新后的分词向量获得目标文本的文本向量。获得更新后的分词向量可以参见公式(4):
h′i=a′i×hi (4)
其中,h′i表示更新后的第i个分词向量;a′i表示第i个分词相对于检索串的相关度参数;hi表示第i个分词向量。
由于考虑了每个分词分别对应的相关度参数,故由此生成的文本向量,会更加突出体现与检索串相关程度较高的分词向量,生成的文本向量中强化了与用户意图相关分词的信息,弱化了与用户意图不相关分词的信息,从而起到了基于用户意图选择文本向量中信息的作用,使其包括更多与用户意图相关分词的信息。
此外,在考虑用户意图的同时,本实施例还保证生成的摘要内容不会偏离该目标文本的内容。通过相关度参数对目标文本的分词向量进行调整,强化与用户意图相关分词的信息,弱化与用户意图不相关分词的信息,使该文本向量考虑了目标文本中所有分词对应的分词向量,即考虑了目标文本的所有语义内容,使生成的文本向量涵盖了更为细致、丰满的目标文本的相关信息,该文本向量在尽可能多地考虑到本次检索用户意图的同时不会偏离该目标文本的中心内容。S205:基于所述文本向量生成所述目标文本对应的摘要内容。
在基于文本向量生成目标文本对应的摘要内容时,由于本申请实施例采用基于QBS-Encoder的方式进行编码,对应的,可以采用基于用户意图驱动的解码算法(Query-Driven Decoder,QD-Decoder)进行解码。将获得的文本向量输入至解码器中,即将该文本向量作为解码器的输入数据。例如,可以采用指针生成网络(Pointer-GeneratorNetworks)作为解码器,将文本向量作为该指针生成网络的初始状态,然后进行解码,生成目标文本对应的摘要内容。其中,根据前述得到的文本向量携带了与检索串相关的信息,基于该文本向量确定出的摘要内容将会更贴近本次检索体现的用户意图,从而获取到表征用户意图相关的检索串后,基于检索串动态生成摘要内容,使每一次摘要内容能够与每一次检索体现的用户意图相关,进而提高用户的阅读体验。
需要说明的是,虽然生成的摘要内容与检索串相关,不同的检索串可以生成不同的摘要内容,不同的检索串也可以生成相同的摘要内容,本申请对此不做具体限定。例如,为人工智能的检索串与为AI的检索串可以生成针对相同目标文本的相同的摘要内容。又如,为人工智能的检索串与为机器学习的检索串可以生成针对相同目标文本的不同的摘要内容。
由上述技术方案可以看出,针对基于检索串确定的目标文本,可以目标文本中多个分词分别对应的分词向量,以及检索串中检索词对应的检索词向量确定每个分词的相关度参数。其中,一个分词的相关度参数表示这个分词与检索串的相关程度,由于检索串可以体现以该检索串进行检索时的用户意图,从而通过相关度参数可以体现出目标文本中哪些分词与用户意图更为相关,哪些分词与用户意图不太相关。在确定目标文本的文本向量时,除了需要依据分词的分词向量,还会参考分词的前述相关度参数,由此生成的文本向量中,会强化与用户意图相关分词的信息,弱化与用户意图不相关分词的信息,从而起到了基于用户意图选择文本向量中信息的作用,根据以此得到的文本向量来确定目标文本对应的摘要内容时,由于该文本向量中携带更多与用户意图相关分词的信息,确定出的摘要内容将会更贴近检索串示出的用户意图,从而提高了用户的阅读体验。
基于划分粒度不同,目标文本不仅可以被划分为多个分词,还可以被划分为多个文本片段,文本片段的划分粒度大于分词的划分粒度,一个文本片段中包括多个分词。文本片段根据目标文本中的分隔符确定,例如,文本片段可以为句子、段落等数据结构。以文本片段为句子为例,此时分隔符可以为句号,一个句号对应一个句子,通过在目标文本中的句号确定句子,由于文本片段的划分粒度大于分词的划分粒度,此时分词可以为句子中的单词。
如果一个文本片段与目标文本中的其他文本片段均相关,那么该文本片段与目标文本整体是相关的,属于目标文本中较为重要的文本片段。基于此,本申请提出文本片段相对于目标文本的重要性参数,该重要性参数体现对应的文本片段与目标文本的相关程度,通过该重要性参数确定目标文本中更为重要的信息,以便生成的文本向量能够进一步突出体现目标文本的重要信息。下面进行具体说明。
文本片段中包括多个分词,每个分词均具有相对于检索串的相关度参数和分词向量,通过分词的相关度参数和分词向量,可以确定文本片段的片段向量。例如,通过QBS-Encoder方式获得的多个分词向量,例如采用公式(4)获得更新后的分词向量h′i,将一个文本片段中包括的更新后的分词向量h′i进行拼接。参见公式(5):
lk=QBSEncoder(d,q) (5)
其中,目标文本共包括K个文本片段,lk表示目标文本中第k个文本片段的片段向量,k∈K,k与K均为整数,K>1;d表示目标文本,q表示检索串。
在获得文本片段的片段向量后,可以基于片段向量得到文本片段相对于目标文本的重要性参数。例如,先基于片段向量获取每个文本片段之间的相似度,参见公式(6):
其中,Hkk′表示片段向量lk和片段向量lk′之间的相似度;lk′表示目标文本中第k’个文本片段的片段向量,k′∈K,k′为整数。
然后,对目标文本中所有文本片段对应的相似度求和,并进行softmax操作,获得文本片段相对于目标文本的重要性参数,参见公式(7):
bk=softmax(∑KHkk′) (7)
其中,bk表示第k个文本片段相对于目标文本的重要性参数。
基于多个文本片段分别对应的片段向量以及重要性参数,生成目标文本的文本向量,参见公式(8):
F′=∑K(lk×bk) (8)
其中,F′表示目标文本的文本向量。
由此,通过获取文本片段相对于目标文本的重要性参数,可以体现目标文本中哪些文本片段与目标文本更为相关,哪些文本片段与目标文本不太相关。在确定目标文本的文本向量时,除了需要依据文本片段的片段向量,还会参考文本片段的前述重要性参数,由此生成的片段向量中,会强化与目标文本相关文本片段的信息,弱化与目标文本不相关文本片段的信息。由于片段向量是基于分词的相关度参数和分词向量确定的,根据片段向量与重要性参数生成的文本向量确定出的摘要内容在贴近检索串示出的用户意图的同时,还能够进一步突出体现目标文本中更为重要的信息,从而提高了用户的阅读体验。
如果一个分词与目标文本中的其他分词均相关,那么该分词与目标文本整体是相关的,属于目标文本中较为重要的分词。基于此,本申请还提出分词相对于目标文本的重要性参数,该重要性参数体现对应的分词与目标文本的相关程度,通过该重要性参数确定目标文本中更为重要的信息,以便生成的文本向量能够进一步突出体现目标文本的重要信息。下面进行具体说明。
可以基于分词向量得到分词相对于目标文本的重要性参数。例如,先基于分词向量获取每个分词之间的相似度,参见公式(9):
其中,Gii′表示第i个分词的分词向量hi和第i’个分词的分词向量hi′之间的相似度;hi′表示第i’个分词的分词向量,i′∈I,i′为整数。
然后,对目标文本中所有分词对应的相似度求和,并进行softmax操作,获得分词相对于目标文本的重要性参数,参见公式(10):
ai=softmax(∑I Gii′) (10)
其中,ai表示第i个分词相对于目标文本的重要性参数。
参见图4,该图为本申请实施例提供的一种确定分词相对于目标文本的重要性参数的示意图。在图4中,目标文本包括I个分词,I个分词对应I个分词向量。
确定I个分词向量分别对应I个分词向量的相似度,形成分词与分词之间的相似度矩阵。以图4中相似度矩阵第一列为例,表示第一个分词向量h1与I个分词向量hi的I个相似度,分别为G11、G12、···、G1I,其中,相似度G11表示分词向量h1与分词向量h1的相似程度,依次类推。
在确定I个分词向量分别对应的I个分词向量的I×I个相似度后,根据I×I个相似度确定I个分词相对于目标文本的重要性参数。以图4中相似度矩阵第一列为例,在获取针对第一个分词向量的I个相似度后,求和∑I G1i后,对其进行softmax操作,获得第一个分词向量对应的重要性参数a1。同理,获得I个分词目标文本的重要性参数,从图4中可以看出,每个分词相对于每个分词的重要性参数不同,其中,目标文本中第三个分词、第五个分词和第I个分词相较于其他分词与目标文本的相关度程度高。
其中,在获取针对第i个分词向量的I个相似度后,可以进行Reduce sum操作,以便于提取子相关度参数中主要的特征分量。
在获得分词相对于目标文本的重要性参数后,可以通过权重调节参数α和权重调节参数β调节分词的重要性参数和相关度参数的比重,更新分词对应的分词向量,此时,公式(4)可以变形为公式(11):
h′i=(α×ai+β×a′i)×hi (11)
其中,α和β为权重调节参数;ai表示第i个分词相对于目标文本的重要性参数;a′i表示目标文本中第i个分词相对于检索串的相关度参数;hi表示第i个分词向量;h′i表示更新后的第i个分词向量。
当分词的重要性参数和相关度参数同等重要时,可以取α和β均为0.5,此时,公式(11)可以变形为公式(12):
获得多个分词更新后的分词向量,通过多个分词更新后的分词向量,得到目标文本的文本向量,相关之处可以参见S204,在此不再赘述。
在确定分词对应的分词向量时,一个分词可能会由于其前一个分词或后一个分词的不同,产生不同的含义。例如,分词“是”表示正确的含义,当其前一个分词为“不”时,二者表达的含义为不正确的含义。由此,在确定分词对应的分词向量时,增加对其上下文语义信息的考虑,通过结合上下文分析每个分词的语义信息,提升分词向量的准确性,从而提高文本向量的准确性,进而使通过文本向量确定出的摘要内容更贴近检索串示出的用户意图。
根据分词在目标文本中文本片段的位置,确定在该文本片段中该分词的前向隐状态和后向隐状态,其中,分词的前向隐状态用于标识分词在目标文本中对应的文本片段中的上文信息,分词的后向隐状态用于标识分词在目标文本中对应的文本片段中的下文信息。例如,将分词所在的文本片段通过一层双向长期短期记忆(Bi-directional LongShort-Term Memory,BiLSTM)网络进行编码,BiLSTM编码是由前向长期短期记忆(LongShort-Term Memory,LSTM)与后向LSTM组合而成,通过编码可以获得分词的前向隐状态和分词的后向隐状态,参见公式(13):
例如,继续参见图3或图4,通过带有方向的线表示每个分词向量之间与其前后的分词向量之间的关联。
根据分词的前向隐状态和后向隐状态确定分词的分词向量。例如,可以采用将分词的前向隐状态和分词的后向隐状态拼接的方式获得分词的分词向量,参见公式(14):
其中,hi表示分词的分词向量。
同理,当检索串包括多个检索词时,也可以通过结合上下文分析每个检索词的语义信息,提升检索词向量的准确性。
根据检索词在检索串中的位置,确定检索词的前向隐状态和后向隐状态,其中,检索词的前向隐状态用于标识检索词在检索串中的上文信息,检索词的后向隐状态用于标识检索词在检索串中的下文信息。例如,将检索串通过BiLSTM进行编码,通过编码可以获得检索词的前向隐状态和检索词的后向隐状态,参见公式(15):
例如,继续参见图3,通过带有方向的线表示每个检索词向量之间与其前后的检索词向量之间的关联。
根据检索词的前向隐状态和后向隐状态确定检索词的检索词向量。例如,可以采用将检索词的前向隐状态和检索词的后向隐状态拼接的方式获得检索词的检索词向量,参见公式(16):
其中,uj表示检索词的检索词向量。
本申请实施例提供的单文本的摘要确定方法可以应用于搜索引擎、智能客服、个性化浏览等场景。例如,在搜索引擎场景中,通过动态生成符合用户意图的摘要内容,可以帮助用户快速从大量文本中获取感兴趣的内容;在智能客服场景中,以动态生成摘要内容的形式这对用户的查询内容提供解决方案;在个性化浏览场景中,总结包含用户意图的摘要内容以供用户可以快速浏览相应的内容等等。
接下来,以搜索引擎场景为例对本申请实施例提供的单文本的摘要确定方法进行说明。参见图5,该图为本申请实施例提供的一种单文本的摘要确定方法的应用场景示意图。
目标用户在终端设备提供的搜索界面中输入检索串,该检索串用于标识用户的检索意图,包括J个检索词,终端设备根据获取的检索串获取至少包括目标文本的文本检索结果,即在终端设备提供的检索结果展示界面中展示目标文本和其他文本检索结果,其中,目标文本中包括I个分词和K个文本片段。
终端设备根据每个检索词在检索串中的位置,通过BiLSTM对每个检索词进行编码,确定每个检索词的前向隐状态和后向隐状态,参见公式(15)并根据公式(16)得到J个检索词对应的检索词向量u1、u2、…、uJ。
根据目标文本中每个分词在目标文本中的位置,通过BiLSTM对每个分词进行编码,确定每个分词的前向隐状态和后向隐状态,参见公式(13),并根据公式(14)得到I个分词对应的分词向量h1、h2、…、hI。
根据I个分词向量h1、h2、…、hI和J个检索词分别对应的检索词向量u1、u2、…、uJ,根据公式(1)确定每个分词分别对应每个检索词的子相关度参数Sij,并将I×J个子相关度参数求和并进行softmax操作,得到目标文本中每个分词相对于检索串的相关度参数a′i,参见公式(3)。
根据I个分词向量h1、h2、…、hI确定每个分词相对于目标文本的重要性参数ai,参见公式(10),基于每个分词的重要性参数ai和相关度参数a′i,更新每个分词对应的分词向量h′i,参见公式(11)。
根据K个文本片段所对应包括的分词的相关度参数和分词向量,确定每个文本片段的片段向量lk,参见公式(5)。通过每个文本片段对应的片段向量lk,得到文本片段相对于目标文本的重要性参数bk,参见公式(7)。以目标文本中第2个文本片段为例,该文本片段中包括N个分词,N个分词分别对应的分词向量为h21、h22、…、h2N,采用QBS-encoder方式生成片段向量为l2。在图5中仅示出第2个文本片段的片段向量l2对应的重要性参数b2。
基于多个文本片段分别对应的片段向量lk以及重要性参数bk,根据公式(8)生成目标文本的文本向量F′。将文本向量F′作为解码器的输入数据,基于文本向量中携带的与检索串相关的信息生成目标文本对应的摘要内容,该摘要内容可以根据用户输入的检索串进行动态调整,从而提高了用户的阅读体验。
针对上述实施例提供的单文本的摘要确定方法,本申请实施例还提供了一种单文本的摘要确定装置。
参见图6,该图为本申请实施例提供的一种单文本的摘要确定装置的示意图。如图6所示,该摘要确定装置600包括:第一获取单元601、第一确定单元602、第二确定单元603、第二获取单元604和生成单元605;
所述第一获取单元601,用于获取基于检索串确定的目标文本,所述检索串包括至少一个检索词,所述目标文本包括多个分词;
所述第一确定单元602,用于确定所述检索词对应的检索词向量,以及所述分词对应的分词向量;
所述第二确定单元603,用于根据所述检索词向量和所述分词向量,确定所述分词相对于所述检索串的相关度参数;
所述第二获取单元604,用于通过所述多个分词分别对应的相关度参数以及分词向量,得到所述目标文本的文本向量;
所述生成单元605,用于基于所述文本向量生成所述目标文本对应的摘要内容。
作为一种可能的实现方式,若所述检索串包括多个检索词,所述第二确定单元603,用于:
根据所述分词向量和所述多个检索词分别对应的检索词向量,确定所述分词分别对应所述多个检索词的子相关度参数;
根据所述子相关度参数得到所述分词相对于所述检索串的相关度参数。
作为一种可能的实现方式,所述目标文本包括多个文本片段,所述文本片段为根据所述目标文本中的分隔符确定的,所述第二获取单元604,用于:
根据所述文本片段所包括分词的相关度参数和分词向量,确定所述文本片段的片段向量;
通过所述文本片段对应的片段向量,得到所述文本片段相对于所述目标文本的重要性参数;
基于所述多个文本片段分别对应的片段向量以及重要性参数,生成所述目标文本的文本向量。
作为一种可能的实现方式,所述第二获取单元604,用于:
根据所述分词的分词向量,确定所述分词相对于所述目标文本的重要性参数;
基于所述分词的重要性参数和相关度参数,更新所述分词对应的分词向量;
通过所述多个分词更新后的分词向量,得到所述目标文本的文本向量。
作为一种可能的实现方式,所述第一确定单元602,用于:
根据所述检索词在所述检索串中的位置,确定所述检索词的前向隐状态和后向隐状态,所述检索词的前向隐状态用于标识所述检索词在所述检索串中的上文信息,所述检索词的后向隐状态用于标识所述检索词在所述检索串中的下文信息;
根据所述检索词的前向隐状态和后向隐状态确定所述检索词的检索词向量;
根据所述分词在所述目标文本中的位置,确定所述分词的前向隐状态和后向隐状态,所述分词的前向隐状态用于标识所述分词在所述目标文本中的上文信息,所述分词的后向隐状态用于标识所述分词在所述目标文本中的下文信息;
根据所述分词的前向隐状态和后向隐状态确定所述分词的分词向量。
作为一种可能的实现方式,所述第一获取单元601,用于:
将所述文本向量作为解码器的输入数据,基于所述文本向量中携带的与所述检索串相关的信息生成所述目标文本对应的摘要内容。
作为一种可能的实现方式,所述第一获取单元601,用于:
获取目标用户对应的所述检索串,所述检索串用于标识所述目标用户的检索意图;
根据所述检索串获取至少包括所述目标文本的文本检索结果。
上述实施例提供的单文本的摘要确定装置,针对基于检索串确定的目标文本,可以目标文本中多个分词分别对应的分词向量,以及检索串中检索词对应的检索词向量,并根据分词向量和检索词向量确定每个分词的相关度参数。其中,一个分词的相关度参数表示这个分词与检索串的相关程度,由于检索串可以体现以该检索串进行检索时的用户意图,从而通过相关度参数可以体现出目标文本中哪些分词与用户意图更为相关,哪些分词与用户意图不太相关。在确定目标文本的文本向量时,除了需要依据分词的分词向量,还会参考分词的前述相关度参数,由此生成的文本向量中,会强化与用户意图相关分词的信息,弱化与用户意图不相关分词的信息,从而起到了基于用户意图选择文本向量中信息的作用,根据以此得到的文本向量来确定目标文本对应的摘要内容时,由于该文本向量中携带更多与用户意图相关分词的信息,确定出的摘要内容将会更贴近检索串示出的用户意图,从而提高了用户的阅读体验。
本申请实施例还提供了一种计算机设备,下面将从硬件实体化的角度对本申请实施例提供的计算机设备进行介绍。
参见图7,图7是本申请实施例提供的一种服务器结构示意图,该服务器1400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessing units,CPU)1422(例如,一个或一个以上处理器)和存储器1432,一个或一个以上存储应用程序1442或数据1444的存储介质1430(例如一个或一个以上海量存储设备)。其中,存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1422可以设置为与存储介质1430通信,在服务器1400上执行存储介质1430中的一系列指令操作。
服务器1400还可以包括一个或一个以上电源1426,一个或一个以上有线或无线网络接口1450,一个或一个以上输入输出接口1458,和/或,一个或一个以上操作系统1441,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图7所示的服务器结构。
其中,CPU 1422用于执行如下步骤:
获取基于检索串确定的目标文本,所述检索串包括至少一个检索词,所述目标文本包括多个分词;
确定所述检索词对应的检索词向量,以及所述分词对应的分词向量;
根据所述检索词向量和所述分词向量,确定所述分词相对于所述检索串的相关度参数;
通过所述多个分词分别对应的相关度参数以及分词向量,得到所述目标文本的文本向量;
基于所述文本向量生成所述目标文本对应的摘要内容。
可选的,CPU 1422还可以执行本申请实施例中单文本的摘要确定方法任一具体实现方式的方法步骤。
针对上文描述的单文本的摘要确定方法,本申请实施例还提供了一种用于单文本的摘要确定的终端设备,以使上述单文本的摘要确定方法在实际中实现以及应用。
参见图8,图8为本申请实施例提供的一种终端设备的结构示意图。为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(Personal DigitalAssistant,简称PDA)等任意终端设备,以终端设备为手机为例:
图8示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图8,该手机包括:射频(Radio Frequency,简称RF)电路1510、存储器1520、输入单元1530、显示单元1540、传感器1550、音频电路1560、无线保真(wireless fidelity,简称WiFi)模块1570、处理器1580、以及电源1590等部件。本领域技术人员可以理解,图8中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图8对手机的各个构成部件进行具体的介绍:
RF电路1510可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1580处理;另外,将设计上行的数据发送给基站。通常,RF电路1510包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,简称LNA)、双工器等。此外,RF电路1510还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(Global System of Mobile communication,简称GSM)、通用分组无线服务(GeneralPacket Radio Service,简称GPRS)、码分多址(Code Division Multiple Access,简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access,简称WCDMA)、长期演进(Long Term Evolution,简称LTE)、电子邮件、短消息服务(Short Messaging Service,简称SMS)等。
存储器1520可用于存储软件程序以及模块,处理器1580通过运行存储在存储器1520的软件程序以及模块,从而实现手机的各种功能应用以及数据处理。存储器1520可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1530可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1530可包括触控面板1531以及其他输入设备1532。触控面板1531,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1531上或在触控面板1531附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1531可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1580,并能接收处理器1580发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1531。除了触控面板1531,输入单元1530还可以包括其他输入设备1532。具体地,其他输入设备1532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1540可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1540可包括显示面板1541,可选的,可以采用液晶显示器(LiquidCrystal Display,简称LCD)、有机发光二极管(Organic Light-Emitting Diode,简称OLED)等形式来配置显示面板1541。进一步的,触控面板1531可覆盖显示面板1541,当触控面板1531检测到在其上或附近的触摸操作后,传送给处理器1580以确定触摸事件的类型,随后处理器1580根据触摸事件的类型在显示面板1541上提供相应的视觉输出。虽然在图8中,触控面板1531与显示面板1541是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1531与显示面板1541集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1550,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1541的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1541和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1560、扬声器1561,传声器1562可提供用户与手机之间的音频接口。音频电路1560可将接收到的音频数据转换后的电信号,传输到扬声器1561,由扬声器1561转换为声音信号输出;另一方面,传声器1562将收集的声音信号转换为电信号,由音频电路1560接收后转换为音频数据,再将音频数据输出处理器1580处理后,经RF电路1510以发送给比如另一手机,或者将音频数据输出至存储器1520以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块1570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图8示出了WiFi模块1570,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1580是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1520内的软件程序和/或模块,以及调用存储在存储器1520内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1580可包括一个或多个处理单元;优选的,处理器1580可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1580中。
手机还包括给各个部件供电的电源1590(比如电池),优选的,电源可以通过电源管理系统与处理器1580逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该手机所包括的存储器1520可以存储程序代码,并将所述程序代码传输给所述处理器。
该手机所包括的处理器1580可以根据所述程序代码中的指令执行上述实施例提供的单文本的摘要确定方法。
本申请实施例还提供一种计算机可读存储介质,用于存储计算机程序,该计算机程序用于执行上述实施例提供的单文本的摘要确定方法。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面的各种可选实现方式中提供的单文本的摘要确定方法。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一种:只读存储器(英文:read-only memory,缩写:ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (10)
1.一种单文本的摘要确定方法,其特征在于,所述方法包括:
获取基于检索串确定的目标文本,所述检索串包括至少一个检索词,所述目标文本包括多个分词;
确定所述检索词对应的检索词向量,以及所述分词对应的分词向量;
根据所述检索词向量和所述分词向量,确定所述分词相对于所述检索串的相关度参数;
通过所述多个分词分别对应的相关度参数以及分词向量,得到所述目标文本的文本向量;
基于所述文本向量生成所述目标文本对应的摘要内容。
2.根据权利要求1所述的方法,其特征在于,若所述检索串包括多个检索词,所述根据所述检索词向量和所述分词向量,确定所述分词相对于所述检索串的相关度参数,包括:
根据所述分词向量和所述多个检索词分别对应的检索词向量,确定所述分词分别对应所述多个检索词的子相关度参数;
根据所述子相关度参数得到所述分词相对于所述检索串的相关度参数。
3.根据权利要求1所述的方法,其特征在于,所述目标文本包括多个文本片段,所述文本片段为根据所述目标文本中的分隔符确定的,所述通过所述多个分词分别对应的相关度参数以及分词向量,得到所述目标文本的文本向量,包括:
根据所述文本片段所包括分词的相关度参数和分词向量,确定所述文本片段的片段向量;
通过所述文本片段对应的片段向量,得到所述文本片段相对于所述目标文本的重要性参数;
基于所述多个文本片段分别对应的片段向量以及重要性参数,生成所述目标文本的文本向量。
4.根据权利要求1-3任意一项所述的方法,其特征在于,所述通过所述多个分词分别对应的相关度参数以及分词向量,得到所述目标文本的文本向量,包括:
根据所述分词的分词向量,确定所述分词相对于所述目标文本的重要性参数;
基于所述分词的重要性参数和相关度参数,更新所述分词对应的分词向量;
通过所述多个分词更新后的分词向量,得到所述目标文本的文本向量。
5.根据权利要求1-3任意一项所述的方法,其特征在于,所述确定所述检索词对应的检索词向量,以及所述分词对应的分词向量,包括:
根据所述检索词在所述检索串中的位置,确定所述检索词的前向隐状态和后向隐状态,所述检索词的前向隐状态用于标识所述检索词在所述检索串中的上文信息,所述检索词的后向隐状态用于标识所述检索词在所述检索串中的下文信息;
根据所述检索词的前向隐状态和后向隐状态确定所述检索词的检索词向量;
根据所述分词在所述目标文本中的位置,确定所述分词的前向隐状态和后向隐状态,所述分词的前向隐状态用于标识所述分词在所述目标文本中的上文信息,所述分词的后向隐状态用于标识所述分词在所述目标文本中的下文信息;
根据所述分词的前向隐状态和后向隐状态确定所述分词的分词向量。
6.根据权利要求1-3任意一项所述的方法,其特征在于,所述基于所述文本向量生成所述目标文本对应的摘要内容,包括:
将所述文本向量作为解码器的输入数据,基于所述文本向量中携带的与所述检索串相关的信息生成所述目标文本对应的摘要内容。
7.根据权利要求1-3任意一项所述的方法,其特征在于,所述获取基于检索串确定的目标文本,包括:
获取目标用户对应的所述检索串,所述检索串用于标识所述目标用户的检索意图;
根据所述检索串获取至少包括所述目标文本的文本检索结果。
8.一种单文本的摘要确定装置,其特征在于,所述装置包括:第一获取单元、第一确定单元、第二确定单元、第二获取单元和生成单元;
所述第一获取单元,用于获取基于检索串确定的目标文本,所述检索串包括至少一个检索词,所述目标文本包括多个分词;
所述第一确定单元,用于确定所述检索词对应的检索词向量,以及所述分词对应的分词向量;
所述第二确定单元,用于根据所述检索词向量和所述分词向量,确定所述分词相对于所述检索串的相关度参数;
所述第二获取单元,用于通过所述多个分词分别对应的相关度参数以及分词向量,得到所述目标文本的文本向量;
所述生成单元,用于基于所述文本向量生成所述目标文本对应的摘要内容。
9.一种计算机设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-7任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1-7任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011328977.8A CN112307198B (zh) | 2020-11-24 | 2020-11-24 | 一种单文本的摘要确定方法和相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011328977.8A CN112307198B (zh) | 2020-11-24 | 2020-11-24 | 一种单文本的摘要确定方法和相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112307198A true CN112307198A (zh) | 2021-02-02 |
CN112307198B CN112307198B (zh) | 2024-03-12 |
Family
ID=74335730
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011328977.8A Active CN112307198B (zh) | 2020-11-24 | 2020-11-24 | 一种单文本的摘要确定方法和相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112307198B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113822038A (zh) * | 2021-06-03 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 一种摘要生成方法和相关装置 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003012661A1 (en) * | 2001-07-31 | 2003-02-13 | Invention Machine Corporation | Computer based summarization of natural language documents |
US20100205199A1 (en) * | 2009-02-06 | 2010-08-12 | Yi-An Lin | Intent driven search result rich abstracts |
CN104636465A (zh) * | 2015-02-10 | 2015-05-20 | 百度在线网络技术(北京)有限公司 | 网页摘要生成方法、展示方法及相应装置 |
CN105279252A (zh) * | 2015-10-12 | 2016-01-27 | 广州神马移动信息科技有限公司 | 挖掘相关词的方法、搜索方法、搜索系统 |
CN105354321A (zh) * | 2015-11-16 | 2016-02-24 | 中国建设银行股份有限公司 | 一种查询数据处理方法和装置 |
CN107832414A (zh) * | 2017-11-07 | 2018-03-23 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
CN109241298A (zh) * | 2018-09-06 | 2019-01-18 | 广州知弘科技有限公司 | 语义数据存储调度方法 |
CN109815396A (zh) * | 2019-01-16 | 2019-05-28 | 北京搜狗科技发展有限公司 | 搜索词权重确定方法及装置 |
CN110059156A (zh) * | 2019-03-13 | 2019-07-26 | 平安城市建设科技(深圳)有限公司 | 基于关联词的协同检索方法、装置、设备及可读存储介质 |
CN110147494A (zh) * | 2019-04-24 | 2019-08-20 | 北京三快在线科技有限公司 | 信息搜索方法、装置,存储介质及电子设备 |
JP2019204221A (ja) * | 2018-05-22 | 2019-11-28 | 日本電信電話株式会社 | 検索ワードサジェスト装置、固有表現情報の作成方法、および、固有表現情報の作成プログラム |
CN111324728A (zh) * | 2020-01-22 | 2020-06-23 | 腾讯科技(深圳)有限公司 | 文本事件摘要的生成方法、装置、电子设备及存储介质 |
CN111581377A (zh) * | 2020-04-23 | 2020-08-25 | 广东博智林机器人有限公司 | 文本分类方法、装置、存储介质及计算机设备 |
CN111814058A (zh) * | 2020-08-20 | 2020-10-23 | 深圳市欢太科技有限公司 | 基于用户意图的推送方法、装置、电子设备及存储介质 |
-
2020
- 2020-11-24 CN CN202011328977.8A patent/CN112307198B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003012661A1 (en) * | 2001-07-31 | 2003-02-13 | Invention Machine Corporation | Computer based summarization of natural language documents |
US20100205199A1 (en) * | 2009-02-06 | 2010-08-12 | Yi-An Lin | Intent driven search result rich abstracts |
CN104636465A (zh) * | 2015-02-10 | 2015-05-20 | 百度在线网络技术(北京)有限公司 | 网页摘要生成方法、展示方法及相应装置 |
CN105279252A (zh) * | 2015-10-12 | 2016-01-27 | 广州神马移动信息科技有限公司 | 挖掘相关词的方法、搜索方法、搜索系统 |
CN105354321A (zh) * | 2015-11-16 | 2016-02-24 | 中国建设银行股份有限公司 | 一种查询数据处理方法和装置 |
CN107832414A (zh) * | 2017-11-07 | 2018-03-23 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
JP2019204221A (ja) * | 2018-05-22 | 2019-11-28 | 日本電信電話株式会社 | 検索ワードサジェスト装置、固有表現情報の作成方法、および、固有表現情報の作成プログラム |
CN109241298A (zh) * | 2018-09-06 | 2019-01-18 | 广州知弘科技有限公司 | 语义数据存储调度方法 |
CN109815396A (zh) * | 2019-01-16 | 2019-05-28 | 北京搜狗科技发展有限公司 | 搜索词权重确定方法及装置 |
CN110059156A (zh) * | 2019-03-13 | 2019-07-26 | 平安城市建设科技(深圳)有限公司 | 基于关联词的协同检索方法、装置、设备及可读存储介质 |
CN110147494A (zh) * | 2019-04-24 | 2019-08-20 | 北京三快在线科技有限公司 | 信息搜索方法、装置,存储介质及电子设备 |
CN111324728A (zh) * | 2020-01-22 | 2020-06-23 | 腾讯科技(深圳)有限公司 | 文本事件摘要的生成方法、装置、电子设备及存储介质 |
CN111581377A (zh) * | 2020-04-23 | 2020-08-25 | 广东博智林机器人有限公司 | 文本分类方法、装置、存储介质及计算机设备 |
CN111814058A (zh) * | 2020-08-20 | 2020-10-23 | 深圳市欢太科技有限公司 | 基于用户意图的推送方法、装置、电子设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
PETR BARDONEK 等: "Using Control Logic Drivers for Automated Generation of System-level Portable Models", 《2020 23RD INTERNATIONAL SYMPOSIUM ON DESIGN AND DIAGNOSTICS OF ELECTRONIC CIRCUITS & SYSTEMS (DDECS)》 * |
李春光: "互联网信息分布式深度搜索的研究", 《中国优秀毕业生硕士论文集信息科技》 * |
柳斌: "基于深度学习的中文自动摘要生成", 《中国优秀硕士生毕业论文集信息科技》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113822038A (zh) * | 2021-06-03 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 一种摘要生成方法和相关装置 |
CN113822038B (zh) * | 2021-06-03 | 2024-06-25 | 腾讯科技(深圳)有限公司 | 一种摘要生成方法和相关装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112307198B (zh) | 2024-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230015606A1 (en) | Named entity recognition method and apparatus, device, and storage medium | |
CN110598046B (zh) | 一种基于人工智能的标题党识别方法和相关装置 | |
CN111931501B (zh) | 一种基于人工智能的文本挖掘方法、相关装置及设备 | |
CN113821589B (zh) | 一种文本标签的确定方法及装置、计算机设备和存储介质 | |
CN112749252A (zh) | 一种基于人工智能的文本匹配方法和相关装置 | |
CN108345612A (zh) | 一种问题处理方法和装置、一种用于问题处理的装置 | |
CN114357278B (zh) | 一种话题推荐方法、装置及设备 | |
CN114328852A (zh) | 一种文本处理的方法、相关装置及设备 | |
CN113254684A (zh) | 一种内容时效的确定方法、相关装置、设备以及存储介质 | |
CN112328783A (zh) | 一种摘要确定方法和相关装置 | |
CN113822038B (zh) | 一种摘要生成方法和相关装置 | |
CN113220848A (zh) | 用于人机交互的自动问答方法、装置和智能设备 | |
CN112307198B (zh) | 一种单文本的摘要确定方法和相关装置 | |
CN116758362A (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
WO2024036616A1 (zh) | 一种基于终端的问答方法及装置 | |
CN112036135B (zh) | 一种文本处理方法和相关装置 | |
CN114840563B (zh) | 一种字段描述信息的生成方法、装置、设备及存储介质 | |
CN111428523B (zh) | 翻译语料生成方法、装置、计算机设备及存储介质 | |
CN113569043A (zh) | 一种文本类别确定方法和相关装置 | |
CN113703883A (zh) | 一种交互方法和相关装置 | |
CN113821609A (zh) | 一种答案文本的获取方法及装置、计算机设备和存储介质 | |
CN111723783A (zh) | 一种内容识别方法和相关装置 | |
CN110263347A (zh) | 一种同义词的构建方法及相关装置 | |
CN115730030B (zh) | 一种评论信息的处理方法以及相关装置 | |
CN117057345B (zh) | 一种角色关系的获取方法及相关产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40038813 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |