CN109840320A - 文本的定制化处理 - Google Patents

文本的定制化处理 Download PDF

Info

Publication number
CN109840320A
CN109840320A CN201711218351.XA CN201711218351A CN109840320A CN 109840320 A CN109840320 A CN 109840320A CN 201711218351 A CN201711218351 A CN 201711218351A CN 109840320 A CN109840320 A CN 109840320A
Authority
CN
China
Prior art keywords
sentence
text
word
name entity
equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711218351.XA
Other languages
English (en)
Other versions
CN109840320B (zh
Inventor
葛涛
韦福如
崔磊
黄绍晗
周明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Priority to CN201711218351.XA priority Critical patent/CN109840320B/zh
Priority to PCT/US2018/061163 priority patent/WO2019108399A1/en
Publication of CN109840320A publication Critical patent/CN109840320A/zh
Application granted granted Critical
Publication of CN109840320B publication Critical patent/CN109840320B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开的实施例涉及文本的定制化处理。在该处理文本的方法中,基于待处理的文本所包括的词语与用于文本处理的历史词语样本的匹配来确定该文本中所包括的针对用户而言重要的信息。这样的信息在本文中被称为非命名实体。所确定的非命名实体的指示可以被提供给用户。本公开的实施例可以有效地避免用户遗漏重要的信息,提高用户处理文本的效率。

Description

文本的定制化处理
背景技术
现今的工作环境中,用户经常需要阅读和处理大量的文本。例如,用户可能会接收到大量的邮件,并且需要对这些邮件及时进行回复。用户也可能需要从大量的文档中来快速获得所需的内容。如何高效地处理和提取诸如邮件和文档等文本中的信息成为帮助用户提高工作效率的关键问题。
发明内容
根据本公开的一些实施例,提供了一种处理文本的方法。在该方法中,基于待处理的文本所包括的词语与用于文本处理的历史词语样本的匹配来确定该文本中所包括的针对用户而言重要的信息。这样的信息在本文中被称为非命名实体。所确定的非命名实体的指示可以被提供给用户。
提供发明内容部分是为了简化的形式来介绍对概念的标识,其在下文的具体实施方式中将被进一步描述。发明内容部分无意标识要求保护的主题的关键特征或主要特征,也无意限制要求保护的主题的范围。
附图说明
图1是示出根据本公开的实施例的计算机系统图;
图2示出了根据本公开的一个实施例的文本的界面;
图3示出了根据本公开的一个实施例的处理文本的方法的示例界面;
图4示出了根据本公开的一个实施例的输入方法的流程图;
图5示出了根据本公开的一个实施例的处理文本的示例界面;以及
图6示出了根据本公开的一个实施例的处理文本的示例界面。
这些附图中,相同或相似参考符号用于表示相同或相似元素。
具体实施方式
现在将参照若干示例实施例来论述本公开。应当理解,论述了这些实施例仅是为了使得本领域普通技术人员能够更好地理解且因此实现本公开,而不是暗示对本公开的范围的任何限制。
如本文所使用的,术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”。术语“一个实施例”和“一种实施例”要被解读为“至少一个实施例”。术语“另一个实施例”要被解读为“至少一个其他实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
以下参考附图来说明本公开的基本原理和若干示例实施例。图1 示出了能够实施本公开的多个实施例的计算设备100的框图。应当理解,图1所示出的计算设备100仅仅是示例性的,而不应当构成对本公开所描述的实施例的功能和范围的任何限制。如图1所示,计算设备100包括通用计算设备形式的计算设备100。计算设备100的组件可以包括但不限于一个或多个处理器或处理单元110、存储器120、存储设备130、一个或多个通信单元140、一个或多个输入设备150 以及一个或多个输出设备160。
在一些实施例中,计算设备100可以被实现为各种用户终端或服务终端。服务终端可以是各种服务提供方提供的服务器、大型计算设备等。用户终端诸如是任意类型的移动终端、固定终端或便携式终端,包括移动手机、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合,包括这些设备的配件和外设或者其任意组合。还可预见到的是,计算设备100能够支持任意类型的针对用户的接口(诸如“可佩戴”电路等)。
处理单元110可以是实际或虚拟处理器并且能够根据存储器120 中存储的程序来执行各种处理。在多处理器系统中,多个处理单元并行执行计算机可执行指令,以提高计算设备100的并行处理能力。处理单元110也可以被称为中央处理单元(CPU)、微处理器、控制器、微控制器。
计算设备100通常包括多个计算机存储介质。这样的介质可以是计算设备100可访问的任何可以获得的介质,包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器120可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如,只读存储器(ROM)、电可擦除可编程只读存储器 (EEPROM)、闪存)或其某种组合。存储器120可以包括一个或多个文本处理模块122,其被配置为执行本文所描述的各种实施例的功能。文本处理模块122可以由处理单元110访问和运行,以实现相应功能。存储设备130可以是可拆卸或不可拆卸的介质,并且可以包括机器可读介质,其能够用于存储信息和/或数据并且可以在计算设备 100内被访问。
通信单元140实现通过通信介质与另外的计算设备进行通信。附加地,计算设备100的组件的功能可以以单个计算集群或多个计算机器来实现,这些计算机器能够通过通信连接进行通信。因此,计算设备100可以使用与一个或多个其他服务器、个人计算机(PC)或者另一个一般网络节点的逻辑连接来在联网环境中进行操作。计算设备 100还可以根据需要通过通信单元140与一个或多个外部设备(未示出)进行通信,外部设备诸如存储设备、显示设备等,与一个或多个使得用户与计算设备100交互的设备进行通信,或者与使得计算设备 100与一个或多个其他计算设备通信的任何设备(例如,网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。
输入设备150可以是一个或多个各种输入设备,例如鼠标、键盘、触摸屏、追踪球、语音输入设备等。输出设备160可以是一个或多个输出设备,例如显示器、扬声器、打印机等。
本公开的实施例涉及文本的处理。下面分别以电子邮件和文档为例来讨论本公开的实施例的原理。当然,应当理解但是这仅仅是示例,无意以任何方式限制本公开的范围。本公开的实施例可以应用于任何其他类型和/或格式的文本,包括但不限于PDF格式、演示文档格式、 excel格式、各种网页格式的文本。
图2示出了根据本公开的一个实施例的电子邮件的用户界面 200。如图2所示,用户界面200示出了该电子邮件的发件人210、收件人220、主题230以及邮件正文240。在该示例中,收件人220“爱丽丝”接收到来自发件人210“鲍勃”的主题230为“活动通知”的邮件。
传统上,邮件正文240并未有任何醒目显示的部分。收件人220 “爱丽丝”需要阅读全部邮件正文240来了解该邮件的内容,以及确定出该邮件中需要回复的部分。然而,如果邮件正文240所包含的信息量很大,收件人220很可能忽视其中一些重要的内容。虽然当前的电子邮件中可以标出电子邮件中时间涉及的时间,但是仍没有标出诸如所需要回复的内容的方法。
图3示出了根据本公开的一个实施例的文档的用户界面300。如图3所示的文档包含大量的信息。阅读该文档的用户可能无法快速地找到其感兴趣的内容。当前的自动文摘生成技术可以生成文档的文摘。但是所生成的文摘仅仅是按照文档的结构所抽取的句子。此外,所生成的文摘也没有依据不同的用户而发生改变。
本公开的实施例可以基于用于文档处理的历史词语样本对文本进行处理来确定该文本中针对该用户而言重要的信息,并且以醒目的方式向该用户提示这些重要的信息,从而有效地避免用户遗漏文档中重要的信息并且提高了用户处理文档的效率。
图4示出了根据本公开的一个实施例的处理文本的方法400的流程图。方法400可以由图1所示的计算设备100实现。图5示出了根据本公开的一个实施例的处理文本的示例界面500。图5所示的示例界面500包括:发件人510、收件人520、邮件主题530以及邮件正文540。图6示出了根据本公开的一个实施例的处理文本的示例界面 600。为了更清楚地描述本公开的原理,下面将参照图4至图6对本公开的实施例进行更加详细地描述。
在410,设备100基于待处理的文本所包括的词语与用于文本处理的历史词语样本的匹配,从该文本所包括的词语中确定至少一个非命名实体。术语“命名实体”是指人名、机构名、地名以及其他以名称为标识的实体,其还可以包括数字、日期、货币和地址。在此使用的术语“非命名实体”是指文本中除命名实体外的其他实体。作为示例,在电子邮件中,非命名实体可以指用户所要回答的语句。术语“历史词语样本”是指先前获得的词语样本。历史词语样本可以与至少一个用户的偏好相关联。至少一个用户可以指操作当前文本的用户,也可以指诸如隶属于同一组织的其他用户。历史词语样本中的词语可以以单个词语的形式来存储,也可以以短语和/或语句的形式来存储。
词语历史样本可以通过任意合适方式来确定成与用户偏好相关联。在一个实施例中,可以基于操作当前文本的用户或操作其他文本的其他用户对文本的历史操作来确定用户偏好,从而获得词语历史样本。如图5所示,如果文本是电子邮件540,收件人520的偏好可以基于收件人520针对历史电子邮件中哪些语句进行回复来确定。设备 100可以将这些历史数据中被回复过的语句组确定为词语历史样本。例如,如果收件人520在历史邮件中针对“你喜欢哪种料理?”这一语句进行过回复,则该语句中包括的词语可以被确定为词语历史样本。在词语历史样本中,该语句可以以完整的语句形式被保存,也可以以单个词语的形式被保存。在此示例中,设备100可以确定电子邮件540中非命名实体“料理”。如果电子邮件540中包括与“你喜欢哪种料理?”完全一样的语句,设备100可以将该完全一样的语句确定为非命名实体。
在又一实施例中,如果该文本是诸如企业内部的电子邮件,词语历史样本可以基于该企业内部的电子邮件,而不仅仅分析收件人520 先前回复的电子邮件来确定。例如,可以通过该企业内部的电子邮件中被回复过的语句组来确定用于文本处理的历史词语样本。仅作为示例,如果该企业的电子邮件中多次出现“明天上午几点开会?”“明天上午10点开会。”这一语句对,则该语句对可以作为历史词语样本。如上所述,在历史词语样本中,该语句对可以以完整的语句形式被存储,也可以以单个词语的形式被存储。在该示例中,如果其他文本发现了与上述历史词语样本“明天上午几点开会?”类似的语句,设备100可以将该类似的语句确定为非命名实体。作为示例,设备100 也可以将文本中包括“几点”这一词语的语句确定为非命名实体。在其他示例中,设备100可以将词语“几点”确定为非命名实体。
在另一实施例中,如果该电子邮件540为群发电子邮件,历史词语样本可以基于其他收件人针对该电子邮件540的回复被确定。例如,其他收件人针对电子邮件540中语句5030“请于12月19日前回复我是否参加活动”进行回复。则该语句可被确定为历史词语样本。设备 100可以将收件人为520的电子邮件540中该语句确定为需要回复的目标语句。可以理解,设备100可以以任意合适的方式来确定用于文本处理的历史词语样本。
在另一实施例中,在因特网所包括的信息中获得“明天下午几点出发?”“明天下午1点出发。”这样的语句对也可以被确定为历史词语样本。
在又一实施例中,历史词语样本也可以通过体现用户偏好的文本的用户的对话上下文被确定。例如,在诸如lync等实时通信软件中,用户对话的上下文中出现“开会”这样词语,其可以作为历史词语样本。
仅作为示例,如图6所示,如果文本是诸如word文档等的文本,设备100可以通过该文本文档相关联的用户个人信息的简档来确定用于文本处理的历史词语样本。例如,设备100可以通过用户的历史输入来确定用户的简档。设备100也可以基于用户的历史行为来确定用户的简档。设备100可以从简档中确定用户的偏好,进而确定历史词语样本。具体地,如果从简档中确定该用户的职业为软件工程师,设备100基于用户的职业确定诸如用户对科技信息感兴趣的这一偏好。因此,诸如“语音识别”“人工智能”等词语可以被确定为历史词语样本。在某些实施例中,可以基于该用户的搜索记录来确定用户的偏好,从而获得历史词语样本。例如,如果用户的搜索记录中存在较多关于就业问题的记录,则可以确定用户可能关心就业相关的问题,因此词语“就业”可以作为历史词语样本。在示例实施例中,用户(例如,收件人520以及文本文档的用户)可以自己设置用于文本处理的历史词语样本。
仅作为示例,设备100可以确定历史词语样本中包括“活动”这一词语,设备100继而将邮件正文540中所有包括词语“活动”的语句确定为非命名实体。在某些实施例中,设备100也可以仅标注“活动”为非命名实体文本可以是如图5所示的电子邮件。在一些实例中,文本可以被存储在设备100中。在另一些实施例中,文本可以被存储在诸如云存储设备等由设备100可访问的远程存储设备中或者任何其他适当的位置。
在某些实施例中,设备100可以采用各种当前正在使用和将来待开发的分词技术对用户输入的文字串进行分割,以获得多个语句所包括的词语用于确定目标语句组。这样的分词技术的示例包括但不限于基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法,等等。
在某些实施例中,设备100可以在410之前,将文本划分或者说切分为多个语句。例如,设备100可以利用句子切分(sentence segmentation)的方式将电子邮件540划分为多个语句。在示例实施例中,设备100将划分后的语句进行分词处理。
在示例性实施例中,设备100可以基于分词的结果来确定多个语句各自的关键语义。例如,设备100可以将邮件正文540中的语句“我看到了几个比较有趣的活动”,分割为词语或词组“我”、“看到了”、“几个”、“比较”、“有趣的”和“活动”。设备100可以确定该语句的关键语义为“活动”。在某些实施例中,如果历史词语样本包括“活动”,设备100可以将“我看到了几个比较有趣的活动”中的“活动”确定为非命名实体。设备100也可以将该句话作为整体来确定为非命名实体。
在某些实施例中,设备100可以基于关键语义,为语句添加语义标签。在此使用的术语“语义标签”用来表征相关语句所要表示的关键语义。例如,如图6所示,设备100可以确定语句“年末城镇登记失业率4.02%。”的主要语义为“失业率”。设备100可以基于“失业率”为该语句添加“失业”这一语义标签。
为此,在某些实施例中,设备100可以利用自然语言处理技术来识别语句中与特定信息有关的词语或者词组。特定信息的示例包括但不限于时间、地点,等等。识别到的词语或者词组,例如“活动”,可被充当语义标签。
备选地或者附加地,在某些实施例中,设备100可以确定文本的内容类型。在某些实施例中,设备100可以通过文本的标题来确定文本的内容类型。例如,设备100可以通过图5中的主题530来确定该电子邮件的类型。在另一些实施例中,设备100可以通过文本中的语句的语义标签来确定文本的内容类型。例如,设备100可以通过确定图6中的多个语句包括语义标签“工作回顾”、“工作部署”等语义标签,进一步确定图6所示的文本的内容类型为政府工作报告。本公开的实施例可以以任意合适的方式来确定文本的内容类型。
在某些实施例中,设备100可以确定多个语句的特征。在此使用的术语“特征”可以指示该语句特定于该文本的信息。例如,特征指示语句在文本中的位置。特征也可以指示语句中所包括的词的词频。
在确定特征之后,设备100可以将特征与用于文本处理的历史词语样本进行匹配,从而选择目标语句。例如,如果用于文本处理的历史词语样本指示在文本文末的语句为目标语句,设备100可以将位于文本文末的语句确定为目标语句组。
在另一些实施例中,设备100可以将与历史词语样本中的多个词语匹配的文本中的词语确定为非命名实体。例如,如图6所示,用于文本处理的历史词语样本包括“就业”和“失业”,设备100将包括“就业”和“失业”两者中至少一个的多个语句6220确定为非命名实体。
仅作为示例,如图5所示,设备100通过将电子邮件540中的语句与用于文本处理的历史词语样本进行匹配,确定电子邮件540中的语句5020“你这周六有空闲时间吗”和“你对哪种料理比较感兴趣”和语句5030“请于12月19日前回复我是否参加活动”为需要回复的语句。设备100将语句5020和语句5030确定为目标语句。例如,如果电子邮件540同时发送给多个用户,设备100可以基于其他收件人针对电子邮件540的回复,确定其他收件人针对语句5020和语句5030 做出回复。因此,设备100可以将语句5020和语句5030确定为需要收件人520回复的目标语句组。
如上所述,可以基于分析收件人520的历史回复邮件来确定收件人520曾经针对与语句5020和语句5030相同或类似的语句组进行过回复。设备100因此将语句5020和语句5030确定为需要收件人520 回复的目标语句组。可以理解,设备100可以确定任意数目的目标语句。以此方式,收件人520可以提高处理电子邮件540的效率并且可以有效地避免遗漏电子邮件540中需要回复的内容。
在另一示例中,设备100可以根据不同的语义标签,将多个语句分为多个不同的语句组。一个语句组中的语句具有相同的语义标签。仅作为示例,如图6所示,设备100基于文本中语句的语义标签,将语句分为语句组6210和语句组6220。具体地,设备100可以将与生产消费有关的语句确定为语句组6210,语句组6210的语句具有指示生产消费的语义标签。设备100将与就业有关的语句确定为语句组 6220,语句组6220中的语句具有指示就业的语义标签。可以理解,设备100可以将语句组分为任意数目的分类。
例如,设备100可以根据用户历史词语样中包括“就业”,来确定将包括语义标签“就业”的语句确定为目标语句组。设备100可以确定目标语句中的诸如“就业”的非命名实体。设备100也可以将目标语句组以语句为单位确定为非命名实体。设备100还可以基于语句组的语义标签和用户感兴趣的语义标签,从语句中选择目标语句组。作为示例,如上所述,设备100确定用户感兴趣的语义标签为就业,设备100将语句组6220确定为目标语句组。在另一示例中,设备100 确定用户感兴趣的语义标签为就业以及生产消费,设备100可以将语句组6210和语句组6220均确定为目标语句组。以此方式,用户可以快速地获取该文本文档中该用户所感兴趣的内容,而不必浪费大量的时间来筛选信息。
在某些实施例中,设备100可以将指示时间的语句确定为目标语句组。在另一些实施例中,设备100可以将指示地点的语句确定为目标语句组。设备100也可以将指示数目或者金额的语句确定为目标语句组。如图5所示,设备100将指示时间和地点的语句组5010确定为目标语句组。
在420,设备100提供至少一个非命名实体的指示。设备100可以以任意方式向用户提供所确定的至少一个非命名实体的指示。例如,如图5和图6所示,设备100可以将非命名实体进行加粗、加下划线以及斜体等处理,从而醒目显示这些词语。设备100也可以对非命名实体添加颜色。设备100也可以以批注的形式显示所确定的非命名实体。设备100可以提供一个非命名实体的整体内容的指示。设备 100也可以仅提供一个该非命名实体中的关键词的提示。
在示例实施例中,设备100可以向用户以同样的方式醒目显示目标语句中属于同一分类的语句。作为示例,如图6所示,设备100将具有生产消费的语义标签的语句组6210以“加粗和下划线”的方式显著地显示,设备100将具有就业的语义标签的语句组6220“以斜体和下划线”的方式显著地显示。以此方式,用户可以快速地确定文本文档中同一分类的信息。
在某些实施例中,设备100可以仅提供语句组6220中的关键词的指示。例如。设备100可以仅醒目显示语句组6220中诸如“就业”和“失业”这样的与用于文本处理的历史词语所匹配的非命名实体。设备100也可以显示语句组6220中的全部语句。
在某些实施例中,设备100可以确定目标语句组中的多个语句的重要性。该重要性指示该语句关于相应的语句与历史词语样本中的至少一个词语之间的匹配程度。仅作为示例,如图5所示,设备100可以将电子邮件540中的语句“你下周六有空闲时间吗?”、“你对哪种料理感兴趣?”以及“请于12月19日前回复我是否参加活动”均确定为目标语句。如果设备100可以确定用于文本处理的历史词语样本中有“请于12月19日前回复我是否参加活动”这样的语句,设备 100可以将电子邮件540中对应的语句确定为重要性为高的目标语句。如果设备100可以基于用户历史行为确定用户对于料理很感兴趣,设备100可以将包含料理的语句确定为重要性为高的目标语句。在某些实施例中,用户可以自行设置语句的重要性信息。
如果目标语句中的部分语句的重要性高于阈值,设备100向用户醒目显示该部分语句或该语句中的非命名实体。该阈值可以以任意合适的方式确定。例如,用户可以自行设置只显示重要性排名前3位的语句。作为示例,如图5所示,设备100向收件人520醒目显示目标语句组5010、5020以及5030。例如,如果设备100确定语句组5010 的重要性低于预定的阈值,设备100可以不向用户醒目显示语句组 5010,以此避免显示过多的信息使得最重要的信息不够突出。
在某些实施例中,设备100可以显示目标语句组的潜在的回复。如图5所示,设备100醒目显示目标语句5030以及针对该目标语句组的可能回复5040。
在示例实施例中,回复5040可以根据历史词语样本来确定。例如,设备100可以确定历史词语样本中存在收件人520针对与语句 5030相同或类似的语句的回复为语句“好的,我非常高兴参加活动!”。在该示例中,设备100确定语句5030为目标语句,并且同时可以显示上述语句作为语句5030的可能回复。设备100也可以将历史词语样本中的词语进行组合来生成可能的回复。
在另一示例中,回复5040可以根据企业邮件中的针对与语句 5030类似语句的答复来确定的。例如,设备100可以确定在企业的历史电子邮件处理中其他用户针对与语句5030相同或类似的语句的回复为语句“非常抱歉,我无法参见这次活动”。在该示例中,设备100 确定语句5030为目标语句,并且同时可以显示上述语句作为语句 5030的可能回复。
设备100可以显示多个可能的回复语句。如图5所示,回复5040 包括两种可能的回复。当然,应当理解但是这仅仅是示例,无意以任何方式限制本公开的范围。
此外,设备100可以根据用户的历史行为来确定是否醒目显示目标语句。例如,如果设备100确定发件人经常发送垃圾邮件,设备100 可以不对该发件人的任何邮件进行处理来确定电子邮件中对于收件人而言重要的信息。用户也可以自行设置是否开启重要信息醒目显示的功能。
注意,在本公开的实施例中,如果涉及向用户收集相关信息,可以通过各种方式事先征求用户同意或至少告知用户。此外,所收集的用户信息仅仅被用于改进文本处理和用户体验,而不会用于其他目的或者以任何其他方式侵犯用户隐私。
以下列出了本公开的一些示例实施例。
根据一些实施例,提供了一种处理文本的方法。该方法包括:基于待处理的文本所包括的词语与用于文本处理的历史词语样本的匹配,从文本所包括的词语中确定至少一个非命名实体,至少一个非命名实体包含历史词语样本中的至少一个词语;以及提供至少一个非命名实体的指示。
在一些实施例中,提供指示包括:响应于确定文本中包括所述至少一个非命名实体的多个语句,确定多个语句的重要性,所述重要性指示相应语句与历史词语样本中的至少一个词语之间的匹配程度;以及根据重要性来提供至少一个非命名实体的指示。
在一些实施例中,文本是电子邮件,并且确定至少一个非命名实体包括:基于电子邮件所包括的多个语句中的词语和历史词语样本,从多个语句中确定包含至少一个非命名实体的目标语句,目标语句为所述电子邮件中需要回复的语句。
在一些实施例中,该方法还包括:基于历史词语样本,生成针对目标语句的回复;以及与提供的指示相关联地显示所生成的回复。
在一些实施例中,该方法还包括:对所述文本包括的多个语句进行分词,以获得多个语句所包含的词语;基于多个语句所包含的词语,确定多个语句各自的关键语义;以及通过将多个语句各自的关键语义与历史词语样本进行匹配,从多个语句中确定所述至少一个非命名实体。
在一些实施例中,从多个语句中确定至少一个非命名实体包括:基于多个语句各自的关键语义,为所述多个语句添加语义标签;基于语义标签将多个语句分为多个语句组,一个语句组中的语句具有相同的语义标签;从多个语句组中选择目标语句组,目标语句组的语义标签与所述历史词语样本中的至少一个词语相匹配;以及从目标语句组中确定至少一个非命名实体。
在一些实施例中,提供目标语句组中的至少部分词语的指示包括:以相同的方式醒目显示从目标语句组中具有相同语义标签的目标语句确定的非命名实体。
在一些实施例中,历史词语样本与至少一个用户的偏好相关联。
在一些实施例中,至少一个用户的偏好基于以下中的至少一项来确定:至少一个用户的搜索记录,至少一个用户对所述文本和另一文本中至少一个文本的历史操作,至少一个用户的简档,以及至少一个用户的对话上下文。
根据一些实施例,提供了一种设备,包括:处理单元;以及存储器,耦合至处理单元并且存储有指令,指令在由处理单元执行时执行以下动作:基于待处理的文本所包括的词语与用于文本处理的历史词语样本的匹配,从文本所包括的词语中确定至少一个非命名实体,至少一个非命名实体包含历史词语样本中的至少一个词语,历史词语样本与至少一个用户的偏好相关联;以及提供至少一个非命名实体的指示。
在一些实施例中,提供指示包括:响应于确定文本中包括所述至少一个非命名实体的多个语句,确定多个语句的重要性,所述重要性指示相应语句与历史词语样本中的至少一个词语之间的匹配程度;以及根据重要性来提供至少一个非命名实体的指示。
在一些实施例中,文本是电子邮件,并且确定至少一个非命名实体包括:基于电子邮件所包括的多个语句中的词语和历史词语样本,从多个语句中确定包含至少一个非命名实体的目标语句,目标语句为所述电子邮件中需要回复的语句。
在一些实施例中,该动作还包括:基于历史词语样本,生成针对目标语句的回复;以及与提供的指示相关联地显示所生成的回复。
在一些实施例中,该动作还包括:对所述文本包括的多个语句进行分词,以获得多个语句所包含的词语;基于多个语句所包含的词语,确定多个语句各自的关键语义;以及通过将多个语句各自的关键语义与历史词语样本进行匹配,从多个语句中确定所述至少一个非命名实体。
在一些实施例中,从多个语句中确定至少一个非命名实体包括:基于多个语句各自的关键语义,为所述多个语句添加语义标签;基于语义标签将多个语句分为多个语句组,一个语句组中的语句具有相同的语义标签;从多个语句组中选择目标语句组,目标语句组的语义标签与所述历史词语样本中的至少一个词语相匹配;以及从目标语句组中确定至少一个非命名实体。
在一些实施例中,提供目标语句组中的至少部分词语的指示包括:以相同的方式醒目显示从目标语句组中具有相同语义标签的目标语句确定的非命名实体。
一些实施例中,历史词语样本与至少一个用户的偏好相关联。
在一些实施例中,至少一个用户的偏好基于以下中的至少一项来确定:至少一个用户的搜索记录,至少一个用户对所述文本和另一文本中至少一个文本的历史操作,至少一个用户的简档,以及至少一个用户的对话上下文。
在又一方面,提供了一种计算机程序产品。所述计算机程序产品被有形地存储在非瞬态计算机存储介质中并且包括机器可执行指令,所述机器可执行指令在由设备执行时使所述设备:基于待处理的文本所包括的词语与用于文本处理的历史词语样本的匹配,从文本所包括的词语中确定至少一个非命名实体,至少一个非命名实体包含历史词语样本中的至少一个词语,历史词语样本与至少一个用户的偏好相关联;以及提供至少一个非命名实体的指示。
在一些实施例中,提供指示包括:响应于确定文本包括所述至少一个非命名实体的多个语句,确定多个语句的重要性,所述重要性指示相应语句与历史词语样本中的至少一个词语之间的匹配程度;以及根据重要性来提供至少一个非命名实体的指示。
在一些实施例中,文本是电子邮件,并且确定至少一个非命名实体包括:基于电子邮件所包括的多个语句中的词语和历史词语样本,从多个语句中确定包含至少一个非命名实体的目标语句,目标语句为所述电子邮件中需要回复的语句。
在一些实施例中,机器可执行指令在由设备执行时使设备:基于历史词语样本,生成针对目标语句的回复;以及与提供的指示相关联地显示所生成的回复。
在一些实施例中,机器可执行指令在由设备执行时使设备:对所述文本包括的多个语句进行分词,以获得多个语句所包含的词语;基于多个语句所包含的词语,确定多个语句各自的关键语义;以及通过将多个语句各自的关键语义与历史词语样本进行匹配,从多个语句中确定所述至少一个非命名实体。
在一些实施例中,机器可执行指令在由设备执行时使设备从多个语句中确定至少一个非命名实体包括:基于多个语句各自的关键语义,为所述多个语句添加语义标签;基于语义标签将多个语句分为多个语句组,一个语句组中的语句具有相同的语义标签;从多个语句组中选择目标语句组,目标语句组的语义标签与所述历史词语样本中的至少一个词语相匹配;以及从目标语句组中确定至少一个非命名实体。
在一些实施例中,机器可执行指令在由设备执行时使设备:以相同的方式醒目显示从目标语句组中具有相同语义标签的目标语句确定的非命名实体。
一些实施例中,历史词语样本与至少一个用户的偏好相关联。
在一些实施例中,至少一个用户的偏好基于以下中的至少一项来确定:至少一个用户的搜索记录,至少一个用户对所述文本和另一文本中至少一个文本的历史操作,至少一个用户的简档,以及至少一个用户的对话上下文。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD) 等等。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (20)

1.一种处理文本的方法,包括:
基于待处理的文本所包括的词语与用于文本处理的历史词语样本的匹配,从所述文本所包括的词语中确定至少一个非命名实体,所述至少一个非命名实体包含所述历史词语样本中的至少一个词语;以及
提供所述至少一个非命名实体的指示。
2.根据权利要求1所述的方法,其中提供所述指示包括:
响应于确定所述文本中包括所述至少一个非命名实体的多个语句,确定所述多个语句的重要性,所述重要性指示相应语句与所述历史词语样本中的至少一个词语之间的匹配程度;以及
根据所述重要性来提供所述至少一个非命名实体的指示。
3.根据权利要求1所述的方法,其中所述文本是电子邮件,并且确定所述至少一个非命名实体包括:
基于所述电子邮件所包括的多个语句中的词语和所述历史词语样本,从所述多个语句中确定包含所述至少一个非命名实体的目标语句,所述目标语句为所述电子邮件中需要回复的语句。
4.根据权利要求3所述的方法,还包括:
基于所述历史词语样本,生成针对所述目标语句的回复;以及
与提供的所述指示相关联地显示所生成的回复。
5.根据权利要求1所述的方法,其中确定所述至少一个非命名实体包括:
对所述文本包括的多个语句进行分词,以获得所述多个语句所包含的所述词语;
基于所述多个语句所包含的所述词语,确定所述多个语句各自的关键语义;以及
通过将所述多个语句各自的关键语义与所述历史词语样本进行匹配,从所述多个语句中确定所述至少一个非命名实体。
6.根据权利要求5所述的方法,其中从所述多个语句中确定所述至少一个非命名实体包括:
基于所述多个语句各自的关键语义,为所述多个语句添加语义标签;
基于所述语义标签将所述多个语句分为多个语句组,一个语句组中的语句具有相同的语义标签;
从所述多个语句组中选择目标语句组,所述目标语句组的所述语义标签与所述历史词语样本中的至少一个词语相匹配;以及
从所述目标语句组中确定所述至少一个非命名实体。
7.根据权利要求6所述的方法,其中提供所述指示包括:
以相同的方式醒目显示从所述目标语句组中具有相同语义标签的目标语句确定的非命名实体。
8.根据权利要求1所述的方法,其中所述历史词语样本与至少一个用户的偏好相关联。
9.根据权利要求8所述的方法,其中所述至少一个用户的偏好基于以下中的至少一项来确定:
所述至少一个用户的搜索记录,
所述至少一个用户对所述文本和另一文本中至少一个文本的历史操作,
所述至少一个用户的简档,以及
所述至少一个用户的对话上下文。
10.一种设备,包括:
处理单元;以及
存储器,耦合至所述处理单元并且存储有指令,所述指令在由所述处理单元执行时执行以下动作:
基于待处理的文本所包括的词语与用于文本处理的历史词语样本的匹配,从所述文本所包括的词语中确定至少一个非命名实体,所述至少一个非命名实体包含所述历史词语样本中的至少一个词语;以及
提供所述至少一个非命名实体的指示。
11.根据权利要求10所述的设备,其中提供所述指示包括:
响应于确定所述文本中包括所述至少一个非命名实体的多个语句,确定所述多个语句的重要性,所述重要性指示相应语句与所述历史词语样本中的至少一个词语之间的匹配程度;以及
根据所述重要性来提供所述至少一个非命名实体的指示。
12.根据权利要求10所述的设备,其中所述文本是电子邮件,并且确定所述至少一个非命名实体包括:
基于所述电子邮件所包括的多个语句中的词语和所述历史词语样本,从所述多个语句中确定包括所述至少一个非命名实体的目标语句,所述目标语句为所述电子邮件中需要回复的语句。
13.根据权利要求12所述的设备,所述动作还包括:
基于所述历史词语样本,生成针对所述需要回复的语句的回复;以及
与提供的所述的指示相关联地显示所生成的回复。
14.根据权利要求11所述的设备,其中确定所述至少一个非命名实体包括:
对所述文本包括的多个语句进行分词,以获得所述多个语句所包括的所述词语;
基于所述多个语句所包括的所述词语,确定所述多个语句各自的关键语义;以及
通过将所述多个语句各自的关键语义与所述历史词语样本进行匹配,从所述多个语句中确定所述至少一个非命名实体。
15.根据权利要求14所述的设备,其中从所述多个语句中确定至少一个所述非命名实体包括:
基于所述多个语句各自的关键语义,为所述多个语句添加语义标签;
基于所述语义标签将所述多个语句分为多个语句组,一个语句组中的语句具有相同的语义标签;
从所述多个语句组中选择目标语句组,所述目标语句组的所述语义标签与所述历史词语样本中的至少一个词语相匹配;以及
从所述目标语句组中确定所述至少一个非命名实体。
16.根据权利要求15所述的设备,其中提供所述至少一个非命名实体的指示包括:
以相同的方式醒目显示从所述目标语句组中具有相同语义标签的目标语句确定的非命名实体。
17.根据权利要求10所述的设备,其中所述历史词语样本与至少一个用户的偏好相关联。
18.根据权利要求17所述的设备,其中所述至少一个用户的偏好基于以下中的至少一项来确定:
所述至少一个用户的搜索记录,
所述至少一个用户对所述文本和另一文本中至少一个文本的历史操作,
所述至少一个用户的简档,以及
所述至少一个用户的对话上下文。
19.一种计算机程序产品,所述计算机程序产品被有形地存储在非瞬态计算机存储介质中并且包括机器可执行指令,所述机器可执行指令在由设备执行时使所述设备:
基于待处理的文本所包括的词语与用于文本处理的历史词语样本的匹配,从所述文本所包括的词语中确定至少一个非命名实体,所述至少一个非命名实体包含所述历史词语样本中的至少一个词语;以及
提供所述至少一个非命名实体的指示。
20.根据权利要求19所述的计算机程序产品,其中所述机器可执行指令在由所述设备执行时使所述设备:
响应于确定所述文本中包括所述至少一个非命名实体的多个语句,确定所述多个语句的重要性,所述重要性指示相应语句与所述历史词语样本中的至少一个词语之间的匹配程度;以及根据所述重要性来提供所述至少一个非命名实体的指示。
CN201711218351.XA 2017-11-28 2017-11-28 文本的定制化处理 Active CN109840320B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201711218351.XA CN109840320B (zh) 2017-11-28 2017-11-28 文本的定制化处理
PCT/US2018/061163 WO2019108399A1 (en) 2017-11-28 2018-11-15 Customized text processing

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711218351.XA CN109840320B (zh) 2017-11-28 2017-11-28 文本的定制化处理

Publications (2)

Publication Number Publication Date
CN109840320A true CN109840320A (zh) 2019-06-04
CN109840320B CN109840320B (zh) 2023-08-25

Family

ID=64572589

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711218351.XA Active CN109840320B (zh) 2017-11-28 2017-11-28 文本的定制化处理

Country Status (2)

Country Link
CN (1) CN109840320B (zh)
WO (1) WO2019108399A1 (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101292282A (zh) * 2005-08-29 2008-10-22 沃伊斯博克斯科技公司 支持自然语言人机交互的移动系统和方法
US20100179961A1 (en) * 2009-01-12 2010-07-15 Pauline M Berry Electronic assistant
CN104781815A (zh) * 2012-12-20 2015-07-15 英特尔公司 用于利用来自媒体体验内部的智能用户交互实施上下文敏感搜索的方法和装置
CN105096942A (zh) * 2014-05-21 2015-11-25 清华大学 语义分析方法和装置
CN105930452A (zh) * 2016-04-21 2016-09-07 北京紫平方信息技术股份有限公司 一种识别自然语言的智能应答方法
US20160259778A1 (en) * 2015-03-06 2016-09-08 Apprento Inc. System and Method for Extracting and Utilizing Information from Digital Communications
CN106575292A (zh) * 2014-08-18 2017-04-19 纽昂斯通讯公司 用于跨应用填写表单的命名实体的概念识别和捕获
CN106874256A (zh) * 2015-12-11 2017-06-20 北京国双科技有限公司 识别领域命名实体的方法及装置
US20170272394A1 (en) * 2016-03-18 2017-09-21 International Business Machines Corporation Email threads related to messaging content

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6820237B1 (en) * 2000-01-21 2004-11-16 Amikanow! Corporation Apparatus and method for context-based highlighting of an electronic document
US8046212B1 (en) * 2003-10-31 2011-10-25 Access Innovations Identification of chemical names in text-containing documents
US20170161372A1 (en) * 2015-12-04 2017-06-08 Codeq Llc Method and system for summarizing emails and extracting tasks

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101292282A (zh) * 2005-08-29 2008-10-22 沃伊斯博克斯科技公司 支持自然语言人机交互的移动系统和方法
US20100179961A1 (en) * 2009-01-12 2010-07-15 Pauline M Berry Electronic assistant
CN104781815A (zh) * 2012-12-20 2015-07-15 英特尔公司 用于利用来自媒体体验内部的智能用户交互实施上下文敏感搜索的方法和装置
CN105096942A (zh) * 2014-05-21 2015-11-25 清华大学 语义分析方法和装置
CN106575292A (zh) * 2014-08-18 2017-04-19 纽昂斯通讯公司 用于跨应用填写表单的命名实体的概念识别和捕获
US20160259778A1 (en) * 2015-03-06 2016-09-08 Apprento Inc. System and Method for Extracting and Utilizing Information from Digital Communications
CN106874256A (zh) * 2015-12-11 2017-06-20 北京国双科技有限公司 识别领域命名实体的方法及装置
US20170272394A1 (en) * 2016-03-18 2017-09-21 International Business Machines Corporation Email threads related to messaging content
CN105930452A (zh) * 2016-04-21 2016-09-07 北京紫平方信息技术股份有限公司 一种识别自然语言的智能应答方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宋晓峰;亢金龙;王宏;: "中文信息智能处理技术的研究", 现代电子技术, no. 22, pages 87 - 89 *

Also Published As

Publication number Publication date
CN109840320B (zh) 2023-08-25
WO2019108399A1 (en) 2019-06-06

Similar Documents

Publication Publication Date Title
US11003716B2 (en) Discovery, characterization, and analysis of interpersonal relationships extracted from unstructured text data
US9275041B2 (en) Performing sentiment analysis on microblogging data, including identifying a new opinion term therein
US8959109B2 (en) Business intelligent in-document suggestions
Koch et al. Age and gender in language, emoji, and emoticon usage in instant messages
KR101716905B1 (ko) 개체의 유사성을 계산하는 방법
Groh et al. Characterizing social relations via nlp-based sentiment analysis
US20160226811A1 (en) System and method for priority email management
US20150178373A1 (en) Mapping relationships using electronic communications data
Sharaff et al. Email thread identification using latent Dirichlet allocation and non-negative matrix factorization based clustering techniques
CN109933717B (zh) 一种基于混合推荐算法的学术会议推荐系统
lvaro Cuesta et al. A Framework for massive Twitter data extraction and analysis
Liu et al. A hybrid sentiment analysis framework for large email data
EP3961426A2 (en) Method and apparatus for recommending document, electronic device and medium
CN111339295A (zh) 用于展示信息的方法、装置、电子设备和计算机可读介质
US20210256221A1 (en) System and method for automatic summarization of content with event based analysis
CN111680161A (zh) 一种文本处理方法、设备以及计算机可读存储介质
Jawad et al. Advancement of artificial intelligence techniques based lexicon emotion analysis for vaccine of COVID-19
US20170329763A1 (en) System and method for detecting meaningless lexical units in a text of a message
Kirmani et al. ShortMail: An email summarizer system
CN111555960A (zh) 信息生成的方法
CN109840320A (zh) 文本的定制化处理
CN114550157A (zh) 弹幕聚集识别方法以及装置
Chakraborty et al. Content based email spam classifier as a web application using naïve Bayes classifier
US10248719B2 (en) System and method for analysing temporal text data
Sung et al. Cognitive scenario generation computing in the Internet of things for enterprise information systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant