CN114330295A - 信息的时效识别、模型训练、推送方法、装置及介质 - Google Patents

信息的时效识别、模型训练、推送方法、装置及介质 Download PDF

Info

Publication number
CN114330295A
CN114330295A CN202110892912.4A CN202110892912A CN114330295A CN 114330295 A CN114330295 A CN 114330295A CN 202110892912 A CN202110892912 A CN 202110892912A CN 114330295 A CN114330295 A CN 114330295A
Authority
CN
China
Prior art keywords
information
aging
sentence
word
identification result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110892912.4A
Other languages
English (en)
Inventor
石磊
马连洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110892912.4A priority Critical patent/CN114330295A/zh
Publication of CN114330295A publication Critical patent/CN114330295A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本申请公开了一种信息的时效识别、模型训练、推送方法、装置及介质,其中,信息的时效识别方法从待识别的信息中获取目标文本数据,对目标文本数据进行语句分割处理得到多个语句,并确定各个语句的语句特征数据;然后基于时效识别模型根据各个语句的语句特征数据确定语句的时效识别结果,并将语句对应的较短时效确定为信息的时效识别结果。该时效识别方法将信息划分为多个语句,基于语句级别的时效识别结果综合判断信息的时效长短,能够较为精准地确定信息的时效,有利于提高信息的推送质量,优化用户体验。本申请可广泛应用于信息技术领域。

Description

信息的时效识别、模型训练、推送方法、装置及介质
技术领域
本申请涉及信息技术领域,尤其是一种信息的时效识别、模型训练、推送方法、装置及介质。
背景技术
近年来,随着网络媒体技术的飞速发展,各种类型的信息规模与日俱增,互联网平台可以将这些信息推送给用户浏览。在这其中,部分信息存在时效的限制,需要在指定的时间内推送给用户,否则容易失去浏览价值,甚至可能产生误导的负面作用,影响用户体验。
相关技术中,一般是根据信息的品类确定推送时效,平台在接收到信息后根据品类确定时效,然后以第一次推送的时间为起点,推送一段预设好的时间后下架该信息。然而,实际上不同信息的时效差异较大,上述方式确定的推送时效经常会导致有用的信息被过早下架或者无用的信息仍被推送。综上,相关技术中缺少较为实用的信息时效识别方法,导致信息推送的效果不太理想。
发明内容
本申请的目的在于至少一定程度上解决现有技术中存在的技术问题之一。
为此,本申请实施例的一个目的在于提供一种信息的时效识别方法,该时效识别方法能够较为精准地确定信息的时效,有利于提高信息的推送质量。
本申请实施例的另一个目的在于提供一种信息的时效识别模型的训练方法,通过该训练方法得到的时效识别模型,可以有效、准确地识别出不同信息的可用时效。
为了达到上述技术目的,本申请实施例所采取的技术方案包括:
一方面,本申请实施例提供一种信息的时效识别方法,该方法包括以下步骤:
从待识别的信息中获取目标文本数据;
对所述目标文本数据进行语句分割处理,得到多个语句,并确定各个所述语句对应的第一语句特征数据;
将各个所述语句对应的第一语句特征数据输入到时效识别模型中,得到各个所述语句对应的第一时效识别结果;所述第一时效识别结果用于表征所述语句的有效时长;
根据所表征的有效时长较短的第一时效识别结果,确定所述信息对应的第二时效识别结果;所述第二时效识别结果用于表征所述信息的有效时长。
另一方面,本申请实施例提供一种信息的时效识别模型训练方法,该方法包括以下步骤:
获取批量的样本语句和所述样本语句对应的时效标签;所述时效标签用于表征所述样本语句的有效时长;
确定各个所述样本语句的第二语句特征数据;
将所述第二语句特征数据输入到时效识别模型中,得到所述样本语句的第四时效识别结果;所述第四时效识别结果用于表征所述样本语句的有效时长;
根据所述第四时效识别结果和时效标签,确定训练的损失值;
根据所述损失值对所述时效识别模型的参数进行更新,得到训练好的时效识别模型。
另一方面,本申请实施例提供一种信息的推送方法,该方法包括以下步骤:
获取待推送的信息;
通过前面所述的方法对所述信息进行时效识别,得到时效识别结果;
根据所述时效识别结果推送所述信息;或者推送所述信息和所述时效识别结果。
另一方面,本申请实施例提供一种信息的时效识别装置,包括:
获取模块,用于从待识别的信息中获取目标文本数据;
分割模块,用于对所述目标文本数据进行语句分割处理,得到多个语句,并确定各个所述语句对应的第一语句特征数据;
识别模块,用于将各个所述语句对应的第一语句特征数据输入到时效识别模型中,得到各个所述语句对应的第一时效识别结果;所述第一时效识别结果用于表征所述语句的有效时长;
处理模块,用于根据所表征的有效时长较短的第一时效识别结果,确定所述信息对应的第二时效识别结果;所述第二时效识别结果用于表征所述信息的有效时长。
另一方面,本申请实施例提供了一种计算机装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行时,使得所述至少一个处理器实现前面所述的信息的时效识别方法、信息的时效识别模型的训练方法或者信息的推送方法。
另一方面,本申请实施例还提供了一种计算机可读存储介质,其中存储有处理器可执行的程序,前面所述处理器可执行的程序在由处理器执行时用于实现前面所述的信息的时效识别方法、信息的时效识别模型的训练方法或者信息的推送方法。
另一方面,本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在前面所述的计算机可读存储介质中;前面所述的计算机装置的处理器可以从前面所述的计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机装置执行前面所述的信息的时效识别方法、信息的时效识别模型的训练方法或者信息的推送方法。
本发明的优点和有益效果将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到:
本申请实施例中提供的信息的时效识别方法,从待识别的信息中获取目标文本数据,对目标文本数据进行语句分割处理得到多个语句,并确定各个语句的语句特征数据;然后基于时效识别模型根据各个语句的语句特征数据确定语句的时效识别结果,并将语句对应的较短时效确定为信息的时效识别结果。该时效识别方法将待识别的信息划分为多个语句,基于语句级别的时效识别结果综合判断信息的时效长短,能够较为精准地确定信息的时效,有利于提高信息的推送质量,优化用户体验。
附图说明
为了更清楚地说明本申请实施例或者现有技术中的技术方案,下面对本申请实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员来说,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
图1为相关技术中信息的时效识别方法示意图;
图2为本申请实施例中提供的一种信息的时效识别方法的实施环境示意图;
图3为本申请实施例中提供的一种信息的时效识别方法的流程示意图;
图4为本申请实施例中提供的一种信息的时效识别方法中获取初始文本数据的示意图;
图5为本申请实施例中提供的一种信息的时效识别方法中获取目标文本数据的示意图;
图6为本申请实施例中提供的一种信息的时效识别方法中的分词原理示意图;
图7为本申请实施例中提供的一种信息的时效识别方法中确定第二时效识别结果的示意图;
图8为本申请实施例中提供的一种信息的时效识别方法的具体实施流程的示意图;
图9为本申请实施例中提供的一种信息的时效识别模型训练方法的流程示意图;
图10为本申请实施例中提供的一种信息推荐方法的流程示意图;
图11为应用本申请实施例中提供的一种信息推荐方法的终端界面示意图;
图12为本申请实施例中提供的一种信息的时效识别装置的结构示意图;
图13为本申请实施例中提供的一种计算机装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
在对本申请实施例进行详细说明之前,首先对本申请实施例中涉及的部分名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
自动语音识别技术(Automatic Speech Recognition,ASR):该技术是让计算机能够“听写”出不同人所说出的连续语音,也就是俗称的“语音听写机”,是实现“声音”到“文字”转换的技术,可以将人的语音信息转换为文本信息。
光学字符识别技术(Optical Character Recognition,OCR):该技术是指电子设备(例如扫描仪或数码相机)检查图像的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成文字的技术。
时效:指信息的有效时长,当信息公布的时间超过时效时,其内容的准确性降低,浏览价值随之降低,可能给用户带来误导的负面影响。
本申请实施例中所提供的信息的时效识别方法、信息推荐方法和信息的时效识别模型训练方法主要涉及人工智能技术。人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。其中,人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术;人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术、机器学习/深度学习、自动驾驶以及智慧交通等几大方向。
本申请实施例中提供的信息的时效识别方法、信息推荐方法和信息的时效识别模型训练方法具体涉及人工智能领域内的自然语言处理技术和机器学习。其中,自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,自然语言处理是一门融语言学、计算机科学、数学于一体的科学。这一领域涉及的自然语言即人们日常使用的语言,所以它与语言学的研究也有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。机器学习(MachineLearning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,它专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,机器学习(深度学习)通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
具体地,本申请实施例中提供的方法,可以采用自然语言处理技术对信息中的目标文本数据进行处理,并结合机器学习模型预测得到信息的时效识别结果。这些方法可以在各种人工智能领域的应用场景中被执行:例如,用户希望获知自己接收到信息的时效,可以采用能够执行本申请中信息的时效识别方法的人工智能系统对信息进行识别;推送平台希望有序安排各类信息的推送优先级或者下架时间,可以通过人工智能系统基于本申请实施例中的信息的推送方法来制定推送策略,从而高效地向用户推送信息。本领域技术人员可以理解的是,以上的应用场景仅起到示例性的作用,并不意味着对本申请实施例中方法的实际应用形成限制。在不同应用场景中,人工智能系统都可以利用本申请实施例中提供的方法执行指定的任务。
当下,互联网的发展深刻地改变了人们的生活方式,铺天盖地的信息时刻都在涌入人们的生活、娱乐以及工作中。其中,网络媒体可以将各类信息推送给用户浏览,开阔用户的视野,丰富用户的认知。但是与此同时,部分信息存在时效的限制,故需要在指定的时间内推送给用户。若信息推荐的时效不准确,在一定程度上会造成用户的浏览疲劳,且容易产生误导,可能引起用户的反感。
相关技术中的信息推送方式,一般是根据信息所属的品类,基于人为设定的规则来进行推送,参照图1,对于待推送信息110,可以通过信息的分类标准120对待推送信息110所属的品类进行简单判断,例如可以通过信息的来源渠道、正文或者标题中的特征判断信息的品类。在得到待推送信息110的品类后,再根据预设的时效规则对该待推送信息进行推送。比如说,当待推送信息110是和体育相关的信息时,其推送的时间默认为3天;当待推送信息110是和电影相关的信息时,其推送时间默认为7天,类似地,社会或者财经类的信息推送时间默认为2天等,这些信息从第一次被推送开始计时,当达到默认的推送时间后下架不再推送。然而实际上不同信息的时效差异较大,图1所示出的推送方法简单地按照信息的品类预估推送时间,经常会导致有用的信息被过早下架,部分有价值的信息的利用率偏低;或者无用的信息仍被推送,不但加重了推送成本,且失去浏览价值的过期信息也会影响用户体验。综上,相关技术中缺少较为实用的信息时效识别方法,导致信息推送的效果不太理想。
有鉴于此,本申请实施例中提供一种信息的时效识别方法,该方法从待识别的信息中获取目标文本数据,对目标文本数据进行语句分割处理得到多个语句,并确定各个语句的语句特征数据;然后基于时效识别模型根据各个语句的语句特征数据确定语句的时效识别结果,并将语句对应的较短时效确定为信息的时效识别结果。该时效识别方法将信息划分为多个语句,基于语句级别的时效识别结果综合判断信息的时效长短,能够较为精准地确定信息的时效,有利于提高信息的推送质量,优化用户体验。
下面结合附图,对本申请实施例的具体实施方式进行详细说明。
参照图2,图2示出了本申请实施例中提供的信息的时效识别方法一种实施环境的示意图。在该实施环境中,主要涉及的软硬件主体包括信息渠道端210、后台服务器220和用户端230。其中,信息渠道端210用于收集、整合各类资讯,处理形成信息式的产品,并上传到后台服务器220中,例如信息可以是新闻、广告、通知等的任意一种。后台服务器220用于将信息整合后推送给用户端230。用户端230上可以运行具有信息接收和展示功能的相关软件或者网络应用,例如,该软件或者网络应用可以是新闻浏览器、线上购物程序、网页或者依赖宿主程序运行的小程序等。在一些实施例中,信息渠道端210和用户端230可以包括智能手表、智能手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、笔记本电脑或者台式计算机等设备中的任意一种或者多种。服务器220可以是前述软件或者网络应用对应的后台服务器。在一些实施例中,服务器220可以配置成独立的物理服务器,也可以配置成多个物理服务器构成的服务器集群或者分布式系统,还可以配置成提供云服务、云数据库、云计算、云存储、网络服务等业务的云服务器。在一些实施例中,信息渠道端210与服务器220、服务器220与用户端230之间可以通过无线网络或有线网络建立通信连接。该无线网络或有线网络使用标准通信技术和/或协议,网络可以设置为因特网,也可以是其它任何网络,例如包括但不限于局域网(Local Area Network,LAN)、城域网(MetropolitanArea Network,MAN)、广域网(Wide Area Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。
在图2所示的实施环境中,本申请提供的方法可以在服务器220中执行,即信息通过信息渠道端210入库到服务器220后,服务器220通过执行本申请实施例中的信息的时效识别方法对信息进行时效识别,并根据时效识别的结果向用户端230推送,例如当信息过期时停止推送。在一些实施例中,本申请提供的方法还可以在用户端230中执行,即信息通过信息渠道端210入库到服务器220后,服务器220将信息推送到用户端230,用户端230接收到信息后,通过执行本申请实施例中的信息的时效识别方法对信息进行时效识别,从而根据时效识别结果为用户提供浏览指引,帮助用户阅览更有价值的信息,提高用户体验。当然,可以理解的是,图2中的实施环境只是本申请实施例中提供的信息的时效识别方法一种可选的应用场景,实际的应用并不固定为图2所示出的软硬件环境。
参照图3,图3是本申请实施例中提供的信息的时效识别方法一个可选的流程示意图,图3中的方法主要包括步骤310至步骤340。
步骤310、从待识别的信息中获取目标文本数据;
本申请实施例中,待识别的信息是指需要识别出时效的信息,此处,时效指的是信息的有效时长。该信息的数据类型可以是各式各样的,例如可以是文本、图像、音频等任一种数据类型的信息。针对不同数据类型的信息,从其中获取目标文本数据的方式也可以进行适应性的选择。例如,参照图4,当待识别的信息410本身是文本类型的数据时,可以将其作为初始文本数据420;当待识别的信息是音频类型的数据时,可以采用自动语音识别技术(Automatic Speech Recognition,ASR)对音频数据进行语音识别,将其转换为文本类型的数据;当待识别的信息是图片类型的数据时,可以采用OCR(Optical CharacterRecognition,光学字符识别)技术对图像数据进行文字识别,得到文本类型的数据;类似地,当待识别的信息是视频类型的数据时,可以对视频数据中的音频数据进行语音识别或者对视频数据中的每帧图像进行文字识别,得到文本类型的数据。本申请中,音频数据、图片数据或者视频数据转换得到的文本数据可以将原有数据类型的信息中的内容转换为文本形式,以方便后续的自然语言处理,这部分文本数据基本保留了原有信息中的内容,也可将其作为初始文本数据420。
对于采集或者转换得到的初始文本数据420,在一些实施例中,可以采用其作为目标文本数据,即将初始文本数据420全部作为后续自然语言处理的数据;在一些实施例中,还可以从初始文本数据420中选取部分的文本内容作为目标文本数据,以减少数据处理量,提高识别的效率。具体地,当选取部分文本内容时,可以从初始文本数据420的首部或者尾部中的至少一处截取一部分自然语段得到目标文本数据,比如说可以截取初始文本数据420的第一段话和最后一段话作为目标文本数据;在一些实施例中,也可以按照字数或者篇幅的比例截取,比如可以截取初始文本数据420中前四分之一的文字部分作为目标文本数据;在一些实施例中,还可以是从初始文本数据420中随机抽取语句或者段落得到目标文本数据。例如,以图5为例,在得到初始文本数据420后,可以从初始文本数据420中随机抽取得到目标文本数据421,比如说图5中得到的目标文本数据421包括“明天好好学习,下周要考试”的文本内容。
此处,需要说明的是,对于含有多种数据类型的组合式信息,可以采用上述的方式针对不同数据类型的信息一一提取初始文本数据后,整合全部的初始文本数据,将整合得到的文本数据作为目标文本数据,或者从整合得到的文本数据中选取部分的文本内容作为目标文本数据;也可以从组合式信息中选取一种数据类型的信息,单独执行本申请实施例中的识别方法,或者按照数据类型的不同,将信息分组后一一执行本申请实施例中的识别方法,整合得到的多个识别结果。
步骤320、对目标文本数据进行语句分割处理,得到多个语句,并确定各个语句对应的第一语句特征数据;
本申请实施例中,对获取得到的目标文本数据进行句子级别的切分处理,即语句分割处理,可以得到多个语句。此处的语句分割处理,目的是将较长的一段文本内容分割成多个较短的语句,以便于通过自然语言处理技术分析语句的语义,提高识别的精度。具体地,在一些实施例中,语句分割处理可以基于目标文本数据中的间隔字符进行切分,比如说目标文本数据中每出现逗号、句号、感叹号或者问号等间隔字符时,在间隔字符处将目标文本数据截断,从而将其拆分为多个语句。举例来说,以图5中的目标文本数据421为例,其文本内容中含有一个逗号,故可以从逗号处将目标文本数据“明天好好学习,下周要考试”截断分割成两个语句,分别记为语句S1:“明天好好学习”和语句S2:“下周要考试”。当然,在一些文本数据中,间隔字符可能还存在其他的作用,并不一定代表语句的隔断,比如数学字符中的小数点和英文字符中的句号可能存在混淆。对于这些较为特殊的间隔字符,可以根据经验建立针对性的决策树,按照经验规则进行层级式的判断,从而提高语句分割处理的精度。
对于切分得到的语句,可以进一步确定这些语句对应的语句特征数据,此处记为第一语句特征数据。本申请中,语句特征数据是用于表征语句的一种数据形式,由于文本类型的数据属于非结构化数据,难以被机器学习模型直接处理,故而需要将其转换为结构化的语句特征数据。本申请实施例中的语句特征数据的数据结构可以是数值、向量、矩阵或者张量等的任意一种。
下面具体描述介绍本申请实施例中确定语句特征数据的一些方式:
首先,可以理解的是,语句本身由词组成,词是自然语言处理技术中最基本的单位。因此,本申请实施例中,可以根据每个语句中的词,确定用于表征该语句的语句特征数据。在一些实施例中,可以先对语句进行分词处理,得到组成该语句的多个词,将这些词记为一个词组,每个语句对应一个词组。比如说,对于语句S1来说,其包含的文本内容为“明天好好学习”,可以拆分为“明天”、“好好”、“学习”三个词,所以语句S1对应的词组可以记为词组C1:{明天,好好,学习};类似地,语句S2对应的词组可以记为词组C2:{下周,要,考试}。具体地,本申请实施例可以采用的分词算法有多种,例如在一些实施例中,可以采用基于词典的分词算法,先把语句按照词典切分成词,再寻找词的最佳组合方式;在一些实施例中,也可以采用基于字的分词算法,先把语句分成一个个字,再将字组合成词,寻找最优的组合方式。下面以采用基于词典的统计语言模型为例,对分词处理的原理及过程进行解释和说明。
在统计语言模型的概念下,一个自然语言的语句包括一连串按照特定顺序排列的词:例如S为自然语言下的某个语句,S={ω1,ω2,ω3,...,ωn},其中,{ω1,ω2,ω3,...,ωn}表示一个词序列,ω1、ω2、ω3……ωn各表示一个词,n为正整数。假设语句S可以被分成五个词,表示为S={ω1,ω2,ω3,ω4,ω5}。那么对于语句S,通过统计语言模型可以确定其在所有的自然语言语句中出现的可能性,即确定语句S出现的概率,将该概率记为P(S),概率P(S)可以表示为P(S)=P(ω1,ω2,ω3,ω4,ω5)。根据条件概率的关系,可以知道:
P(S)=P(ω1)*P(ω21)*P(ω31,ω2)*P(ω41,ω2,ω3)*P(ω51,ω2,ω3,ω4)
式中,P(ω1)表示词ω1出现的概率;P(ω21)表示在词ω1出现的情况下,ω1后面的一个词是ω2的概率;P(ω31,ω2)表示在词ω1、词ω2连续出现的情况下,ω2后面的一个词是ω3的概率;类似地,P(ω41,ω2,ω3)表示在词ω1、词ω2、词ω3连续出现的情况下,ω3后面的一个词是ω4的概率;P(ω51,ω2,ω3,ω4)表示在词ω1、词ω2、词ω3、词ω4连续出现的情况下,ω4后面的一个词是ω5的概率。
一般来说,随着词序列中词的数量的增加,越靠后的词出现的条件概率越难以计算,而当一个词序列中词的数量较多时,可能该词序列中不是连续关系的两个词之间的相关性比较弱。由此,可以利用马尔可夫假设,假设任一个词出现的概率只同它前面的一个词有关,从而对于前述的语句S,这种情况下可以确定其出现的概率为:
P(S)=P(ω1)*P(ω21)*P(ω32)*P(ω43)*P(ω54)
式中,P(ω32)表示在词ω2出现的情况下,ω2后面的一个词是ω3的概率;P(ω43)表示在词ω3出现的情况下,ω3后面的一个词是ω4的概率;P(ω54)表示在词ω4出现的情况下,ω4后面的一个词是ω5的概率。
在前述的马尔可夫假设中,假设了任一个词出现的概率只同它前面的一个词有关,这种情况下得到的计算语句S出现概率的统计语言模型被称为二元模型。在实际的应用中,可以假设任一个词出现的概率只同它前面的M个词有关(M为正整数),根据该假定得到的计算语句S出现概率的统计语言模型被称为M+1元模型。可以理解的是,这些假设下得到的统计语言模型,均可以用于计算语句S出现的概率。本申请实施例中,为方便解释,以采用二元模型为例来进行说明。
当通过二元模型来计算语句S出现的概率P(S)时,应当分别确定出P(ω1)、P(ω21)、P(ω32)、P(ω43)、P(ω54)的结果。根据大数定理,只要统计的数据量足够,则相对频度可以认为等于出现的频率。因此P(S)可以通过以下过程确定:选取语料库,确定词ω1出现的次数,除以语料库的词数大小,得到P(ω1);对于P(ω21),则确定出词ω1后面紧接出现词ω2的次数,然后除以词ω1出现的次数,得到P(ω21),同理,可以得到P(ω32)、P(ω43)、P(ω54)的结果,然后将P(ω1)、P(ω21)、P(ω32)、P(ω43)、P(ω54)相乘即可得到语句S按照S={ω1,ω2,ω3,ω4,ω5}分词出现的概率P(S)。但是,将语句S划分为5个词组成的序列可能有多种方式,故而需要从中确定最准确的分词结果。参照图6,比如说对于“他说的确实在理”的文本内容为例,按照正常的自然语言逻辑,其可以分为一个词序列:“他,说,的,确实,在理”,但是由于“的确”、“实在”也是经常出现的词,所以直接按照词典来划分该语句也可能出现“他,说,的确,实在,理”的分词结果。上述对于语句“他说的确实在理”的分词结果中,都共含有5个词,但是序列中后三个词却是不同的,所以需要进一步辨别多个分词结果的合理性,从中选取较优的作为语句的分词结果。具体地,可以分别计算语句S按照{他,说,的,确实,在理}分词结果出现的第一概率P1以及语句S按照{他,说,的确,实在,理}分词结果出现的第二概率P2,以及其他形式可能的分词结果,比如图6中对应的语句S按照{他,说,的,确,实,在,理}的分词出现的第三概率P3。在图6所示出的示例中,为了更为准确起见,还兼顾了语句S的前后文,即考虑在“他”字之前和“理”字之后存在语句的隔断,以<s>表示语句的隔断,P(他|<s>)表示“他”字为语句第一个词的概率,P(<s>|理)表示“理”字是语句最后一个词的概率,所以第一概率P1=P(他|<s>)*P(说|他)*P(的|说)*P(确实|的)*P(在理|确实),类似地,可以求得第二概率P2和第三概率P3。比较计算得到的第一概率P1、第二概率P2和第三概率P3的大小,可以发现第一概率P1远远大于其他的分词结果对应的概率,所以可以确认语句S的分词结果应当为{他,说,的,确实,在理}。
本申请实施例中,得到每个语句对应的词组后,可以根据词组中各个词对应的词特征数据,确定语句对应的第一语句特征数据。本申请中,类似地,词特征数据是用于表征词的一种数据形式,其数据结构同样可以是数值、向量、矩阵或者张量等的任意一种。比如说,在一些实施例中,可以用数值代表各个词,例如用数值“1”代表中文的“我”;在一些实施例中,可以对语料库中全部的词建立词典,然后用独热(one-hot)向量表示词典中的各个词,比如说假如词典中存在1000个词,则独热向量的维度即为1000维,可以按照每个词在词典中出现的顺序为各个词分配对应的独热向量,比如“我”字是词典中的第一个词,则“我”对应的独热向量可以表示为(1,0,0...0,0),该向量中的第一个元素为1,其余的999个元素均为0;在一些实施例中,为了缩小表示词的向量的维度,还可以采用词嵌入(Wordembedding)向量对词进行表示,词嵌入向量可以通过将词典中的词映射到一个具有统一的较低维度的向量空间中得到,生成这种映射的策略包括神经网络、单词共生矩阵的降维、概率模型以及可解释的知识库方法等。例如,以采用神经网络来获得词嵌入向量为例,可以使用训练好的word2vec(word to vector)模型映射得到词典中各个词的词嵌入向量。相对于前述的独热向量来说,词嵌入向量还具有一定的语义代表性,即语义相似的词在向量空间中也会比较接近,故而使用更为广泛。当然,以上的实施方式仅用于举例说明本申请中词特征数据的确定方式,实际实施过程中并不局限于上述的具体示例。为了方便解释说明,下面以词嵌入向量作为词特征数据为例,对本申请中的第一语句特征数据的计算过程进行说明。
仍以前述的语句S1为例,其对应的词组为C1:{明天,好好,学习},假设词组C1中的词“明天”对应的词嵌入向量为(0,1,0,1),词“好好”对应的词嵌入向量为(1,1,3,0),词“学习”对应的词嵌入向量为(0,0,1,2),则可以对词组C1中的各个词对应的词嵌入向量进行累加,即对三个词嵌入向量中相同位置的元素求和,得到的元素组成一个新的向量,将该向量记为第一向量,词组C1中的词“明天”、“好好”和“学习”对应的词嵌入向量累加后得到的第一向量为(1,2,4,3),在一些实施例中,可以将第一向量作为第一语句特征数据;本申请中,为了标准化和数据处理的便捷,可以对第一向量进行归一化后作为第一语句特征数据,具体地,此处的归一化方法可以是限定第一向量的模为具体的数值,比如对第一向量中的各个元素等比例缩小,使第一向量的模为1;也可以是限定第一向量中各个元素的总和为具体的数值,比如对第一向量中的各个元素等比例缩小,使第一向量中各个元素的总和为1,则此时第一向量将被调整为(0.1,0.2,0.4,0.3)。
前述的实施例中说明了从组成语句的词来确定语句对应的语句特征数据的具体过程。在一些实施例中,对于较为简短的语句,还可以建立语句的特征数据库,将通过上述方法或者其他规则确定的语句特征数据存储起来,并确定该语句特征数据和语句之间的关联关系,当后续从文本数据中分割得到该语句时,可以根据关联关系直接确定出语句对应的语句特征数据。
步骤330、将各个语句对应的第一语句特征数据输入到时效识别模型中,得到各个语句对应的第一时效识别结果;第一时效识别结果用于表征语句的有效时长;
本申请实施例中,当确定到各个语句对应的第一语句特征数据后,可以将第一语句特征数据输入到训练好的时效识别模型中,得到时效识别模型预测的时效识别结果,将此处的时效识别结果记为第一时效识别结果,参与预测的每个语句均对应一个第一时效识别结果。本申请中,第一时效识别结果用于表征模型预测的语句的有效时长。此处,语句的有效时长是指从参考时间节点开始,语句的内容在时间层面维持原始含义的时长。具体地,本申请实施例中,参考时间节点一般可以默认为当前时刻,即对信息进行时效识别的时间节点。当然,在一些实施例中,参考时间节点也可以设置为其他的时间节点,比如说信息的生成时刻、信息的采集时刻或者信息的发布时刻。可以理解的是,同一个信息中拆分得到各个语句对应的参考时间节点相同,均由它们所属的信息对应的参考时间节点确定。并且本申请实施例中,可以将参考时间节点的相关数据作为超参数预先输入到模型中,以使模型基于设定的参考时间节点预测语句的第一时效识别结果。具体地,第一时效识别结果的类型可以根据需要灵活设定,并通过选择执行对应任务的机器学习算法训练得到时效识别模型,或者调整时效识别模型的超参数来实现。
例如,在一些实施例中,可以将本申请中的时效识别设定为分类任务,通过SVM分类器、K最近邻算法、决策树算法、朴素贝叶斯算法等机器学习算法执行该分类任务。具体地,可以预先定义不同的时效类别,比如说时效大于3天的定义为“长时效”的类别,时效小于等于3天的定义为“短时效”的类别。以语句S1和语句S2为例,假设该信息产出的当天为周一,日期为3月1日,则对于语句S1:“明天好好学习”来说,其中的“明天”是针对3月1日的明天,也即3月2日,所以语句S1的时效为3月1日当天内有效,如果在3月2日或者更晚的日期发布该语句S1,则“明天”这个词将会出现误导,信息将失去原有的含义。所以,对于语句S1来说,其时效属于小于等于3天的类别,此时语句S1对应的第一时效识别结果为“短时效”类别。而对于语句S2:“下周要考试”来说,其中的“下周”是针对3月1日到3月7日所在一周的下周,所以在3月1日到3月7日之间的任一天发布该语句S2,“下周”的指代均是清楚无误的,当发布期限超过7天时,即在3月8号或者更晚的日期发布该语句S2,则“下周”这个词将会出现误导,信息将失去原有的含义。类似地,对于语句S2来说,其时效包含了从3月1日到3月7日之间的时间段,长达七天,属于大于3天的类别,此时语句S2对应的第一时效识别结果为“长时效”类别。当然,上述机器学习算法、时效的分类类别设置方式仅用于举例说明分类任务下时效识别的执行原理,实际运用中,机器学习算法的种类、时效的分类类别设置方式、个数可以根据需要灵活设定,在此不再展开赘述。
在一些实施例中,还可以将本申请中的时效识别设定为回归任务,即通过线性回归、逻辑回归、梯度提升决策树(Gradient Boosting Decision Tree,GBDT)、极端梯度提升(eXtreme Gradient Boosting,XGBoost)等机器学习算法预测具体的时效数值,预测的精度可以设置为任意时间尺度,例如可以是以小时、天、周等。仍以语句S1和语句S2为例,假设该信息产出的当天为周一,日期为3月1日,机器学习模型的预测精度以天数为尺度。则类似地,对于语句S1:“明天好好学习”来说,其在3月1日当天内有效,所以语句S1对应的第一时效识别结果为1天。而对于语句S2:“下周要考试”来说,其在3月1日到3月7日内有效,所以语句S2对应的第一时效识别结果为7天。同样,在本实施例的实际运用中,机器学习算法的种类、时效的预测精度可以根据需要灵活设定。
步骤340、根据所表征的有效时长较短的第一时效识别结果,确定信息对应的第二时效识别结果;第二时效识别结果用于表征信息的有效时长。
本申请实施例中,当确定出目标文本数据中各个语句对应的第一时效识别结果后,可以根据语句对应的第一时效识别结果确定目标文本数据所属信息的时效识别结果,此处将信息的时效识别结果记为第二时效识别结果,第二时效识别结果用于表征信息的有效时长。此处,信息的有效时长是指从参考时间节点开始,信息的内容在时间层面维持原始含义的时长。如前述的,同一个信息中拆分得到各个语句对应的参考时间节点相同,均由它们所属的信息对应的参考时间节点确定,即信息和语句的有效时长的起始计量时间节点一致。可以理解的是,由于各个语句是从信息中提取出来的,所以每个语句都可以在一定程度上代表信息的时效,而信息实际的时效应当根据所有语句中有效时长较短的语句来确定,原因在于:对于具有较短有效时长的语句来说,一旦超过其时效期限,该语句的内容便在时间层面无法维持原始含义,语句本身将存在一定的误导性,即便其他具有较长有效时长的语句在之后的一段时间内仍能正确地提供部分信息指引,但从所有语句组成的信息维度来说,整体仍存在误导和不清楚的问题,故而信息的时效应该取所有语句中的较短的有效时长,即第二时效识别结果根据所表征的有效时长较短的第一时效识别结果确定。
比如说,参照图7,以包含语句S1和语句S2的信息为例,假设该信息产出的当天为周一,日期为3月1日,语句S1对应的第一时效识别结果为1天,语句S2对应的第一时效识别结果为7天,但是实际在3月1日以后,信息中的“明天”将失去本来指代的3月2日的含义,即信息中原本包含的“3月2日好好学习”的含义将被扭曲,使得整个信息失去价值,所以,实际该信息对应的第二时效识别结果应该取语句S1的第一时效识别结果,即该信息的时效为1天,只有在3月1日当前内有效。类似地,在第一时效识别结果表征的是时效长短区间的分类结果时,也可以采用上述的方式确定信息对应的第二时效识别结果,比如语句S2对应的第一时效识别结果为“长时效”的类别,语句S1对应的第一时效识别结果为“短时效”的类别,实际信息对应的第二时效识别结果应为所表征的有效时长较短的第一时效识别结果,即第二时效识别结果也同样为“短时效”的类别。前述以两个语句为例,说明了本申请中从多个语句对应的第一时效识别结果中确定信息对应的第二时效识别结果的过程,可以理解的是,当语句数量超过两个时,仍可从中选取所表征的有效时长较短的第一时效识别结果作为信息对应的第二时效识别结果,在此不再展开赘述。
本申请前述的实施例中解释说明了在语句级别对信息进行时效识别预测的方案,而在另一些实施例中,还可以采用语义匹配的方式确定信息的时效。
具体地,首先可以预先建立一些语料匹配库,语料匹配库中可以包括多个时效关键词和时效关键语句。语料匹配库中的内容可以从现有的语料中选取,比如说参照表1:
Figure BDA0003196670820000141
表1
表1中示出了一些当前常用的涵盖有时效信息的语料,比如说当日类型的语料属于当天过期的信息,例如“今晚”,“明晨”在今天过去后将不再有效;一周内类型的语料属于当周过期的信息,例如“本周三”,“周末”在本周过去后将不再有效。故而可以挑选表1中的词和语句作为本申请构建语料匹配库的基础,并且可以通过词或者语句之间的相似度扩展语料匹配库。当然,以上这些语料属于简单的示例,具体的时效可能存在不准确的问题,在应用到本申请的识别方法时可以设置其他的规则对其进行有效的修正,或者根据经验灵活调整、删减选取的语料匹配库内容。
本申请实施例中,将建立的语料匹配库中的内容分为时效关键词和时效关键语句。此处,时效关键词是指带有时间含义的词语,例如可以包括“明天”、“今晚”、“两小时”、“周五”、“三天后”、“春节”、“五一”等;类似地,时效关键语句可以是带有时间含义的语句,例如可以包括“预计要到下周了”、“比赛将持续21天进行”、“活动将于3月6号结束”、“下个月你有空吗”等语句。基于语料匹配库,可以将其和目标文本数据进行匹配,得到匹配结果,从而根据匹配结果确定信息的时效,与得到的第二时效识别结果进行对比,可以更新第二时效识别结果,提高时效识别的精度。
具体地,在对目标文本数据进行匹配时,在一些实施例中,可以从目标文本数据中提取若干个词,将这些词和时效关键词进行相似度匹配,确定提取的词和时效关键词的相似度,此处可以记为第一相似度,然后将第一相似度和预先设定的相似度阈值做比较,此处的相似度阈值可以记为第一阈值。以相似度的数值取值为0~1为例(当相似度为1时,说明提取的词和时效关键词完全一致),第一阈值的大小可以设定为0.8,当某个时效关键词和提取的词之间的第一相似度大于第一阈值时,可以根据该时效关键词确定匹配结果。比如说,假设从目标文本数据中提取的词为“明天”、“好好”和“学习”,在匹配到时效关键词“明天”时,提取的词“明天”和时效关键词“明天”之间的第一相似度为1,提取的词“好好”和时效关键词“明天”之间的第一相似度为0.2,提取的词“学习”和时效关键词“明天”之间的第一相似度为0.3,则提取的词“明天”和时效关键词“明天”之间的第一相似度大于第一阈值,可以将时效关键词“明天”作为匹配结果。类似地,在一些实施例中,还可以从目标文本数据中提取若干个语句,将这些语句和时效关键语句进行相似度匹配,确定提取的语句和时效关键语句的相似度,此处可以记为第二相似度,然后将第二相似度和预先设定的相似度阈值做比较,此处的相似度阈值可以记为第二阈值。当某个时效关键语句和提取的语句之间的第二相似度大于第二阈值时,可以根据该时效关键语句确定匹配结果。需要说明的是,上述第一阈值和第二阈值的大小可以根据需要灵活设置,并不固定为示例中所举出的具体数值。
本申请实施例中,在确定提取的词和时效关键词的第一相似度以及确定提取的语句和时效关键语句的第二相似度时,可以通过计算两者的特征数据来得到相似度。具体地,以计算第一相似度为例,可以先确定提取的词的词特征数据,记为第一词特征数据,并确定时效关键词的词特征数据,记为第二词特征数据,然后评估第一词特征数据和第二词特征数据之间的差异值,具体地,例如当词特征数据均采用数值的形式时,可以计算第一词特征数据和第二词特征数据的数值的差值,将差值作为两者的差异值,类似地,差异值还可以通过向量之间的空间距离、矩阵之间的范数差值等进行确定,其中向量之间的空间距离可以采用欧氏距离、曼哈顿距离或者汉明距离等确定。本申请实施例中,可以根据词特征数据的数据结构选择对应的计算方式。可以理解的是,第一相似度和差异值之间负相关,即差异值越大,第一相似度越小,反之,差异值越小,第一相似度越大,故而可以根据求得的差异值进一步确定得到第一相似度,例如可以通过反比例函数确定。
在一些实施例中,还可以直接通过一些基于向量的相似度算法确定第一相似度和第二相似度,例如以第一相似度为例,可以确定提取的词的向量和时效关键词的向量,比如说均采用词嵌入向量表征提取的词和时效关键词,将提取的词对应的向量记为第一词嵌入向量,时效关键词对应的向量记为第二词嵌入向量。然后可以通过余弦相似度算法、皮尔逊相关系数法或者杰卡德相似系数法等算法基于第一词嵌入向量和第二词嵌入向量计算第一相似度。具体地,例如,可以先确定第一词嵌入向量的长度,记为第一长度,以及第二词嵌入向量的长度,记为第二长度。接着计算第一长度和第二长度的乘积作为第一数值,以及计算第一向量和第二向量的内积作为第二数值,然后计算第一数值和第二数值的商作为第一词嵌入向量与第二词嵌入向量之间的第一相似度,也即提取的词和时效关键词之间的第一相似度。本申请实施例中采用的算法公式如下:
Figure BDA0003196670820000161
式中,a表示提取的词,b表示时效关键词;sim(a,b)表示第一相似度;
Figure BDA0003196670820000162
表示提取的词对应的第一词嵌入向量;
Figure BDA0003196670820000163
表示时效关键词对应的第二词嵌入向量;“·”表示向量之间的内积;
Figure BDA0003196670820000164
表示第一词嵌入向量的长度;
Figure BDA0003196670820000165
表示第二词嵌入向量的长度。
可以理解的是,本申请实施例中,同样可以采用上述的相似度计算方式确定提取的语句和时效关键语句之间的第二相似度,具体的过程在此不再赘述。本申请实施例中,根据相似度和预先设置的阈值,可以得到时效关键词或者时效语句的匹配结果,而匹配结果的形式一般可以分为两种:第一种是时效关键词或者时效语句中含有时效时段,比如“两小时”、“三天后”、“比赛将持续21天进行”等,可以直接从中获取时效的时间长短;第二种则是时效关键词或者时效语句中含有具体的时间节点,比如“明天”、“今晚”、“春节”、“预计要到下周了”、“活动将于3月6号结束”等,对于这种类型的匹配结果,可以根据其中含有的时间节点和当前时间,确定信息的时效识别结果,将此处的时效识别结果记为第三时效识别结果。例如,对于时效关键词“明天”来说,相对于当前时间的时效为1天;假设今天是3月1日,对于时效关键语句“活动将于3月6号结束”来说,相对于3月1日的时效为5天。当然,可以理解的是,如果将时效识别结果的形式预设为前述“长时效”和“短时效”的类别,也可以根据得到的时效的时间长短确定出第三时效识别结果所属的类别。
需要说明的是,当匹配过程中存在多个匹配结果时,可以先针对每个匹配结果确定出其对应的第三时效识别结果,然后对得到的第三时效识别结果进行筛选,保留所表征的有效时长较短的第三时效识别结果作为最终根据匹配结果确定出的第三时效识别结果。此处筛选的原理和前述的步骤340类似,在此不再赘述。并且,本申请实施例中,当根据匹配结果确定出第三时效识别结果时,可以对信息对应的第二时效识别结果进行更新,即将第三时效识别结果和第二时效识别结果中所表征的有效时长较短的确定为更新后的第二时效识别结果。比如说,按照前述通过机器学习模型预测的方法,识别出信息对应的第二时效识别结果为3天,而通过语料匹配库匹配的方法,识别出信息对应的第三时效识别结果为1天,则显然该信息更为准确的时效应为1天,故而更新后信息的第二时效识别结果为1天。
下面结合具体的实施例对本申请实施例中信息的时效识别方法一种实现流程进行说明。
参照图8,本申请实施例中,在获取到需要进行时效识别的信息后,可以对该信息进行基于时效识别模型的时效预测和基于语料匹配库的匹配预测,从而得到时效预测模型预测输出的第二时效识别结果和语料匹配库匹配输出的第三时效识别结果。具体地,首先可以从该信息中提取得到目标文本数据,然后对于目标文本数据,一方面可以从中随机抽取得到若干个词,例如图8中抽取得到m个词,分别可以记为词1、词2……词m;另一方面,还可以将目标文本数据切分为多个语句,例如图8中切分得到n个语句,分别可以记为语句1、语句2……语句n;此处的m和n均为正整数。
在得到切分的语句后,可以将其转换为语句特征数据,语句1转换得到的语句特征数据可以对应记为语句特征数据1,类似地,语句n转换得到的语句特征数据可以记为语句特征数据n,总计语句特征数据的总数也有n个。将n个语句特征数据一一输入到时效识别模型后,可以得到模型输出的n个第一时效识别结果(图8中未示出),而根据n个第一时效识别结果,通过前述的步骤340确定得到基于时效识别模型预测输出的第二时效识别结果。
对于得到的m个词和n个语句,可以将其一起输入到语料匹配库进行匹配,具体的匹配方式已在前述实施例中说明,在此不再赘述,经过匹配后输出的结果记为第三时效识别结果。匹配得到的第三时效结果可以纳入综合考虑,以对基于时效识别模型预测输出的第二时效识别结果进行更新,从而得到更为准确的信息的时效识别结果。当然,此处需要说明的是,本申请提供的信息的时效识别方法中,即可以按照图8中的方式,综合利用时效识别模型和语料匹配库,也可以单独采用其中的一种方式对信息进行时效识别,例如可以单独进行语料匹配的工作,将第三时效识别结果作为信息的时效识别结果。当然,也可以去掉图8中部分的处理流程,例如可以只将抽取的词输入到语料匹配库中,本申请实施例中对此不作限制。
参照图9,本申请实施例中,还提供一种信息的时效识别模型训练方法,类似地,该信息的时效识别模型训练可应用于终端中,也可应用于服务器中,还可以应用于终端或服务器中的软件,用于实现一部分的软件功能。图9中示出的是本申请实施例中提供的信息的时效识别模型训练方法一个可选的流程示意图,该方法主要包括步骤910至步骤950:
步骤910、获取批量的样本语句和样本语句对应的时效标签;时效标签用于表征样本语句的有效时长;
本申请实施例中,在训练时效识别模型时,可以根据任务的需要选择对应的机器学习算法,并调整时效识别模型的超参数,例如,当希望判断信息的时效是否在预定的时效区间时,可以选择便于执行分类任务的机器学习算法,通过调整分类输出的类别个数达到设置时效区间个数的目的;当希望判断信息的时效的具体时长时,可以选择便于执行回归任务的机器学习算法,并且可以调整输出的数值粒度来达到设置预测精度的目的。在具体的训练过程中,可以获取批量的样本语句,这些样本语句可以来自各式各样的信息,然后根据样本语句对应的时效,标记样本语句对应的时效标签,时效标签用于表征样本语句的有效时长,可以是类别标签,也可以是数值标签。本申请实施例中,以分类任务为例对模型的训练过程进行解释说明,比如说可以设置“长时效”和“短时效”两个分类类别,当语句的有效时长大于3天时归类为“长时效”的类别,当语句的有效时长小于等于3天时归类为“短时效”的类别,“长时效”的类别对应的时效标签可以设定为数值1,“短时效”的类别对应的时效标签可以设定为数值0。此处,对于样本语句对应的有效时长的参考时间节点,其设置方式和步骤330中的描述类似,在此不再赘述。
步骤920、确定各个样本语句的第二语句特征数据;
本申请实施例中,对于各个样本语句,可以确定该样本语句对于的语句特征数据,将其记为第二语句特征数据。具体地,语句特征数据的确定方式可以参照前述的步骤220进行。
步骤930、将第二语句特征数据输入到时效识别模型中,得到样本语句的第四时效识别结果;第四时效识别结果用于表征样本语句的有效时长;
步骤940、根据第四时效识别结果和时效标签,确定训练的损失值;
步骤950、根据损失值对时效识别模型的参数进行更新,得到训练好的时效识别模型。
本申请实施例中,将样本语句对应的第二语句特征数据输入到时效识别模型中,得到各个样本语句对应的预测结果,记为第四时效识别结果,该第四时效识别结果用于表征样本语句的时效属于“短时效”的类别还是“长时效”的类别,例如当输出的第四时效识别结果数值为0时,表示时效识别模型预测的样本语句的时效属于“短时效”的类别,该样本语句的时效的时长小于等于3天;当输出的第四时效识别结果数值为1时,表示时效识别模型预测的样本语句的时效属于“长时效”的类别,该样本语句的时效的时长大于3天。通过各个样本语句对应的第四时效识别结果以及时效标签,可以确定时效识别模型预测各个样本语句的损失值。本申请实施例中,损失值可以采用0-1损失函数来确定,当时效识别模型预测正确,即样本语句对应的第四时效识别结果和时效标签一致时,损失值记为0;当时效识别模型预测错误,即样本语句对应的第四时效识别结果和时效标签不一致时,损失值记为1。当然,实际可以采用的损失值计算方式并不局限于上述的损失函数,例如平方差损失函数,交叉熵损失函数等均是可选的类型。通过约束时效识别模型预测多个样本语句的损失值之和最小化,可以对时效识别模型进行反向传播训练,更新其内部的参数,从而得到训练好的时效识别模型。此处,需要说明的是,由于在实际的文本数据中,绝大多数的语句可能并不涵盖有关时效的内容,因此本申请中,可以在机器学习模型的训练和应用过程中设置一个无关语句的分类类别,或者在训练过程中将这部分无关语句的标签标记为最长时效的标签,以减少对训练得到的模型精度的干扰,提高识别的准确率。
参照图10,本申请实施例中,还提供一种信息的推送方法,类似地,该信息的推送方法可应用于终端中,也可应用于服务器中,还可以应用于终端或服务器中的软件,用于实现一部分的软件功能。图10中示出的是本申请实施例中提供的信息的推送方法一个可选的流程示意图,该方法主要包括步骤1010至步骤1030:
步骤1010、获取待推送的信息;
步骤1020、通过如图3所示的方法对信息进行时效识别,得到时效识别结果;
步骤1030、根据时效识别结果推送信息,或者推送信息和时效识别结果。
本申请实施例中,当获取到待推送的信息后,可以采用如图3所示出的信息的时效识别方法对信息的时效进行识别,从而得到信息的时效识别结果。在推送信息时,可以根据信息对应的时效识别结果对信息进行推送,以便用户浏览,减少出现推送时效过期信息的情况,提高用户体验。在一些实施例中,可以根据时效识别结果对信息进行推送,例如某个信息对应的时效识别结果为3天,该时效识别结果对应的参考时间节点为上架的时刻,则可以在推送该信息时标记下架日期,在该信息上架三天后下架。例如参照图11,在商场的购物周促销活动中,某类家电设备以半价特惠的方式降价售出,该活动将持续一周。在该应用场景下,商场的运营商或者合作平台,在发布促销广告时就可以采用本申请实施例中提供的信息推送方法,在本周将结束前自动下架促销广告,以减少可能出现的误导、欺骗消费者等纠纷的发生。在一些实施例中,还可以根据时效识别结果确定信息的推送顺序,例如先推送时效较短的信息,然后再推送时效较长的信息,这样可以合理安排各个信息的推送任务,有利于提高推送系统的硬件利用效率,减少推送过期信息的情况。在一些实施例中,还可以同时将信息和信息对应的时效识别结果一起推荐给用户,以使得用户清楚地了解到信息的时限,减少可能产生的误导,提高信息推荐的准确和专业性。并且,可以理解的是,图3所示的信息的时效识别方法实施例中的内容均适用于本信息的推送方法实施例中,本信息的推送方法实施例在识别信息时效的过程中所具体实现的功能与图3所示的信息的时效识别方法实施例相同,并且达到的有益效果与图3所示的信息的时效识别方法实施例所达到的有益效果也相同。
参照图12,本申请实施例还公开了一种信息的时效识别装置,包括:
获取模块1210,用于从待识别的信息中获取目标文本数据;
分割模块1220,用于对目标文本数据进行语句分割处理,得到多个语句,并确定各个语句对应的第一语句特征数据;
识别模块1230,用于将各个语句对应的第一语句特征数据输入到时效识别模型中,得到各个语句对应的第一时效识别结果;第一时效识别结果用于表征语句的有效时长;
处理模块1240,用于根据所表征的有效时长较短的第一时效识别结果,确定信息对应的第二时效识别结果;第二时效识别结果用于表征信息的有效时长。
可选地,在一些实施例中,获取模块包括:
初始文本数据获取单元,用于从信息中获取初始文本数据;
目标文本数据获取单元,用于从初始文本数据的首部或者尾部中的至少一者截取得到目标文本数据,或从初始文本数据中随机抽取得到目标文本数据。
可选地,在一些实施例中,初始文本数据获取单元包括以下至少之一:
音频数据处理单元,用于当信息为音频数据,对音频数据进行语音识别,得到初始文本数据;
图像数据处理单元,用于当信息为图片数据,对图片数据进行文字识别,得到初始文本数据;
视频数据处理单元,用于当信息为视频数据,对视频数据进行语音识别或者文字识别,得到初始文本数据。
可选地,在一些实施例中,分割模块包括:
分词处理单元,用于对语句进行分词处理,得到语句对应的词组,并确定词组中各个词对应的词特征数据;其中,每个词组包括若干个词;
特征处理单元,用于根据词组中各个词对应的词特征数据,确定语句对应的第一语句特征数据。
可选地,在一些实施例中,词特征数据包括词嵌入向量;
分词处理单元用于:
将词映射到向量空间,得到词对应的词嵌入向量。
可选地,在一些实施例中,特征处理单元包括:
累加子单元,用于对词组中各个词对应的词嵌入向量进行累加,得到第一向量;
归一化子单元,用于对第一向量进行归一化,得到第一语句特征数据。
可选地,在一些实施例中,装置还包括:
匹配单元,用于根据预先建立的语料匹配库对目标文本数据进行匹配,得到匹配结果;语料匹配库中包括多个时效关键词和时效关键语句;
更新单元,用于根据匹配结果对第二时效识别结果进行更新。
可选地,在一些实施例中,匹配单元包括:
第一提取子单元,用于提取目标文本数据中若干个词;
第一相似度处理单元,用于确定词和时效关键词的第一相似度;
第一匹配子单元,用于根据大于第一阈值的第一相似度对应的时效关键词确定匹配结果;
或者,
第二提取子单元,用于提取目标文本数据中若干个语句;
第二相似度处理单元,用于确定语句和时效关键语句的第二相似度;
第二匹配子单元,用于根据大于第二阈值的第二相似度对应的时效关键语句确定匹配结果。
可选地,在一些实施例中,第一相似度处理单元包括:
嵌入向量处理子单元,用于确定词对应的第一词嵌入向量和时效关键词对应的第二词嵌入向量;
第一计算子单元,用于计算第一词嵌入向量的第一长度和第二词嵌入向量的第二长度;
第二计算子单元,用于根据第一长度和第二长度的乘积得到第一数值,根据第一词嵌入向量和第二词嵌入向量的内积得到第二数值;
第三计算子单元,用于根据第二数值和第一数值的商,得到第一相似度。
可选地,在一些实施例中,更新单元包括:
时效识别子单元,用于根据匹配结果和当前时间,确定信息的第三时效识别结果;第三时效识别结果用于表征信息的有效时长;
时效更新子单元,用于将第三时效识别结果和第二时效识别结果中所表征的有效时长较短的确定为更新后的第二时效识别结果。
可以理解的是,图3所示的信息的时效识别方法实施例中的内容均适用于本信息的时效识别装置实施例中,本信息的时效识别装置实施例所具体实现的功能与图3所示的信息的时效识别方法实施例相同,并且达到的有益效果与图3所示的信息的时效识别方法实施例所达到的有益效果也相同。
参照图13,本申请实施例还公开了一种计算机装置,包括:
至少一个处理器1310;
至少一个存储器1320,用于存储至少一个程序;
当至少一个程序被至少一个处理器1310执行,使得至少一个处理器1310实现如图3所示的信息的时效识别方法实施例、图9所示的时效识别模型的训练方法实施例、图10所示的信息的推送方法实施例。
可以理解的是,如图3所示的信息的时效识别方法实施例、图9所示的时效识别模型的训练方法实施例、图10所示的信息的推送方法实施例中的内容均适用于本计算机装置实施例中,本计算机装置实施例所具体实现的功能与如图3所示的信息的时效识别方法实施例、图9所示的时效识别模型的训练方法实施例、图10所示的信息的推送方法实施例相同,并且达到的有益效果与如图3所示的信息的时效识别方法实施例、图9所示的时效识别模型的训练方法实施例、图10所示的信息的推送方法实施例所达到的有益效果也相同。
本申请实施例还公开了一种计算机可读存储介质,其中存储有处理器可执行的程序,处理器可执行的程序在由处理器执行时用于实现如图3所示的信息的时效识别方法实施例、图9所示的时效识别模型的训练方法实施例、图10所示的信息的推送方法实施例。
可以理解的是,图3所示的信息的时效识别方法实施例、图9所示的时效识别模型的训练方法实施例、图10所示的信息的推送方法实施例中的内容均适用于本计算机可读存储介质实施例中,本计算机可读存储介质实施例所具体实现的功能与图3所示的信息的时效识别方法实施例、图9所示的时效识别模型的训练方法实施例、图10所示的信息的推送方法实施例相同,并且达到的有益效果与图3所示的信息的时效识别方法实施例、图9所示的时效识别模型的训练方法实施例、图10所示的信息的推送方法实施例所达到的有益效果也相同。
本申请实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在上述的计算机可读存储介质中;图13所示的计算机装置的处理器可以从上述的计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机装置执行图3所示的信息的时效识别方法实施例、图9所示的时效识别模型的训练方法实施例、图10所示的信息的推送方法实施例。
可以理解的是,图3所示的信息的时效识别方法实施例、图9所示的时效识别模型的训练方法实施例、图10所示的信息的推送方法实施例中的内容均适用于本计算机程序产品或计算机程序实施例中,本计算机程序产品或计算机程序实施例所具体实现的功能与图3所示的信息的时效识别方法实施例、图9所示的时效识别模型的训练方法实施例、图10所示的信息的推送方法实施例相同,并且达到的有益效果与图3所示的信息的时效识别方法实施例、图9所示的时效识别模型的训练方法实施例、图10所示的信息的推送方法实施例所达到的有益效果也相同。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或方框有时能以相反顺序被执行。此外,在本申请的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本申请,但应当理解的是,除非另有相反说明,功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本申请是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本申请。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本申请的范围,本申请的范围由所附权利要求书及其等同方案的全部范围来决定。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本申请的实施方式,本领域的普通技术人员可以理解:在不脱离本申请的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本申请的范围由权利要求及其等同物限定。
以上是对本申请的较佳实施进行了具体说明,但本申请并不限于实施例,熟悉本领域的技术人员在不违背本申请精神的前提下可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (15)

1.一种信息的时效识别方法,其特征在于,包括以下步骤:
从待识别的信息中获取目标文本数据;
对所述目标文本数据进行语句分割处理,得到多个语句,并确定各个所述语句对应的第一语句特征数据;
将各个所述语句对应的第一语句特征数据输入到时效识别模型中,得到各个所述语句对应的第一时效识别结果;所述第一时效识别结果用于表征所述语句的有效时长;
根据所表征的有效时长较短的第一时效识别结果,确定所述信息对应的第二时效识别结果;所述第二时效识别结果用于表征所述信息的有效时长。
2.根据权利要求1所述的方法,其特征在于,所述从待识别的信息中获取目标文本数据,包括:
从所述信息中获取初始文本数据;
从所述初始文本数据的首部或者尾部中的至少一者截取得到所述目标文本数据,或从所述初始文本数据中随机抽取得到所述目标文本数据。
3.根据权利要求2所述的方法,其特征在于,所述从所述信息中获取初始文本数据,包括以下步骤至少之一:
当所述信息为音频数据,对所述音频数据进行语音识别,得到所述初始文本数据;
当所述信息为图片数据,对所述图片数据进行文字识别,得到所述初始文本数据;
当所述信息为视频数据,对所述视频数据进行语音识别或者文字识别,得到所述初始文本数据。
4.根据权利要求1所述的方法,其特征在于,所述确定各个所述语句对应的第一语句特征数据,包括:
对所述语句进行分词处理,得到所述语句对应的词组,并确定所述词组中各个词对应的词特征数据;其中,每个所述词组包括若干个词;
根据所述词组中各个词对应的词特征数据,确定所述语句对应的第一语句特征数据。
5.根据权利要求4所述的方法,其特征在于,所述词特征数据包括词嵌入向量;
所述确定所述词组中各个词对应的词特征数据,包括:
将所述词映射到向量空间,得到所述词对应的词嵌入向量。
6.根据权利要求5所述的方法,其特征在于,所述根据所述词组中各个词对应的词特征数据,确定所述语句对应的第一语句特征数据,包括:
对所述词组中各个词对应的词嵌入向量进行累加,得到第一向量;
对所述第一向量进行归一化,得到所述第一语句特征数据。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述方法还包括以下步骤:
根据预先建立的语料匹配库对所述目标文本数据进行匹配,得到匹配结果;所述语料匹配库中包括多个时效关键词和时效关键语句;
根据所述匹配结果对所述第二时效识别结果进行更新。
8.根据权利要求7所述的方法,其特征在于,所述对所述目标文本数据进行匹配,得到匹配结果,包括:
提取所述目标文本数据中若干个词;
确定所述词和所述时效关键词的第一相似度;
根据大于第一阈值的所述第一相似度对应的时效关键词确定所述匹配结果;
或者,
提取所述目标文本数据中若干个语句;
确定所述语句和所述时效关键语句的第二相似度;
根据大于第二阈值的所述第二相似度对应的时效关键语句确定所述匹配结果。
9.根据权利要求8所述的方法,其特征在于,所述确定所述词和所述时效关键词的第一相似度,包括:
确定所述词对应的第一词嵌入向量和所述时效关键词对应的第二词嵌入向量;
计算所述第一词嵌入向量的第一长度和所述第二词嵌入向量的第二长度;
根据所述第一长度和所述第二长度的乘积得到第一数值,根据所述第一词嵌入向量和所述第二词嵌入向量的内积得到第二数值;
根据所述第二数值和所述第一数值的商,得到所述第一相似度。
10.根据权利要求7所述的方法,其特征在于,所述根据所述匹配结果对所述第二时效识别结果进行更新,包括:
根据所述匹配结果和当前时间,确定所述信息的第三时效识别结果;所述第三时效识别结果用于表征所述信息的有效时长;
将所述第三时效识别结果和所述第二时效识别结果中所表征的有效时长较短的确定为更新后的第二时效识别结果。
11.一种信息的时效识别模型训练方法,其特征在于,包括以下步骤:
获取批量的样本语句和所述样本语句对应的时效标签;所述时效标签用于表征所述样本语句的有效时长;
确定各个所述样本语句的第二语句特征数据;
将所述第二语句特征数据输入到时效识别模型中,得到所述样本语句的第四时效识别结果;所述第四时效识别结果用于表征所述样本语句的有效时长;
根据所述第四时效识别结果和时效标签,确定训练的损失值;
根据所述损失值对所述时效识别模型的参数进行更新,得到训练好的时效识别模型。
12.一种信息的推送方法,其特征在于,包括以下步骤:
获取待推送的信息;
通过如权利要求1-10中任一项所述的方法对所述信息进行时效识别,得到时效识别结果;
根据所述时效识别结果推送所述信息;或者推送所述信息和所述时效识别结果。
13.一种信息的时效识别装置,其特征在于,包括:
获取模块,用于从待识别的信息中获取目标文本数据;
分割模块,用于对所述目标文本数据进行语句分割处理,得到多个语句,并确定各个所述语句对应的第一语句特征数据;
识别模块,用于将各个所述语句对应的第一语句特征数据输入到时效识别模型中,得到各个所述语句对应的第一时效识别结果;所述第一时效识别结果用于表征所述语句的有效时长;
处理模块,用于根据所表征的有效时长较短的第一时效识别结果,确定所述信息对应的第二时效识别结果;所述第二时效识别结果用于表征所述信息的有效时长。
14.一种计算机装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-12中任一项所述的方法。
15.一种计算机可读存储介质,其中存储有处理器可执行的程序,其特征在于:所述处理器可执行的程序在由处理器执行时用于实现如权利要求1-12中任一项所述的方法。
CN202110892912.4A 2021-08-04 2021-08-04 信息的时效识别、模型训练、推送方法、装置及介质 Pending CN114330295A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110892912.4A CN114330295A (zh) 2021-08-04 2021-08-04 信息的时效识别、模型训练、推送方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110892912.4A CN114330295A (zh) 2021-08-04 2021-08-04 信息的时效识别、模型训练、推送方法、装置及介质

Publications (1)

Publication Number Publication Date
CN114330295A true CN114330295A (zh) 2022-04-12

Family

ID=81044296

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110892912.4A Pending CN114330295A (zh) 2021-08-04 2021-08-04 信息的时效识别、模型训练、推送方法、装置及介质

Country Status (1)

Country Link
CN (1) CN114330295A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015143911A1 (zh) * 2014-03-26 2015-10-01 北京奇虎科技有限公司 推送包含时效性信息的网页的方法和装置
US20150286629A1 (en) * 2014-04-08 2015-10-08 Microsoft Corporation Named entity recognition
US20160364377A1 (en) * 2015-06-12 2016-12-15 Satyanarayana Krishnamurthy Language Processing And Knowledge Building System
CN111125429A (zh) * 2019-12-20 2020-05-08 腾讯科技(深圳)有限公司 一种视频推送方法、装置和计算机可读存储介质
CN111177462A (zh) * 2020-01-03 2020-05-19 百度在线网络技术(北京)有限公司 视频分发时效的确定方法和装置
CN112165639A (zh) * 2020-09-23 2021-01-01 腾讯科技(深圳)有限公司 内容分发方法、装置、电子设备以及存储介质
CN113077312A (zh) * 2021-04-12 2021-07-06 上海华客信息科技有限公司 酒店推荐方法、系统、设备及存储介质
KR20210092148A (ko) * 2020-01-15 2021-07-23 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 시계열 지식그래프 생성 방법, 장치, 기기 및 매체

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015143911A1 (zh) * 2014-03-26 2015-10-01 北京奇虎科技有限公司 推送包含时效性信息的网页的方法和装置
US20150286629A1 (en) * 2014-04-08 2015-10-08 Microsoft Corporation Named entity recognition
US20160364377A1 (en) * 2015-06-12 2016-12-15 Satyanarayana Krishnamurthy Language Processing And Knowledge Building System
CN111125429A (zh) * 2019-12-20 2020-05-08 腾讯科技(深圳)有限公司 一种视频推送方法、装置和计算机可读存储介质
CN111177462A (zh) * 2020-01-03 2020-05-19 百度在线网络技术(北京)有限公司 视频分发时效的确定方法和装置
KR20210092148A (ko) * 2020-01-15 2021-07-23 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 시계열 지식그래프 생성 방법, 장치, 기기 및 매체
CN112165639A (zh) * 2020-09-23 2021-01-01 腾讯科技(深圳)有限公司 内容分发方法、装置、电子设备以及存储介质
CN113077312A (zh) * 2021-04-12 2021-07-06 上海华客信息科技有限公司 酒店推荐方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
WO2019153737A1 (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
Shankar et al. An overview and empirical comparison of natural language processing (NLP) models and an introduction to and empirical application of autoencoder models in marketing
US20150095017A1 (en) System and method for learning word embeddings using neural language models
US20130159277A1 (en) Target based indexing of micro-blog content
CN113032552B (zh) 一种基于文本摘要的政策要点抽取方法与提取系统
CN113282711B (zh) 一种车联网文本匹配方法、装置、电子设备及存储介质
CN114416942A (zh) 一种基于深度学习的自动化问答方法
CN112188312A (zh) 用于确定新闻的视频素材的方法和装置
CN111930931A (zh) 一种摘要评价方法及装置
Rafail et al. Natural language processing
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
CN116108840A (zh) 一种文本细粒度情感分析方法、系统、介质和计算设备
CN115796141A (zh) 文本数据增强方法和装置、电子设备、存储介质
US12001797B2 (en) System and method of automatic topic detection in text
CN115391522A (zh) 一种基于社交平台元数据的文本主题建模方法及系统
CN114330295A (zh) 信息的时效识别、模型训练、推送方法、装置及介质
Alnajran et al. A word embedding model learned from political tweets
US11475529B2 (en) Systems and methods for identifying and linking events in structured proceedings
Bost et al. Multiple topic identification in human/human conversations
CN110766073A (zh) 一种强化主题注意力机制的移动应用分类方法
CN111782964A (zh) 一种社区帖子的推荐方法
CN117972025B (zh) 一种基于语义分析的海量文本检索匹配方法
Garg et al. Is sentiment analysis an art or a science? Impact of lexical richness in training corpus on machine learning
CN117609444B (zh) 一种基于大模型的搜索问答方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination