CN111984781A - 偏见最小化的自动概括 - Google Patents
偏见最小化的自动概括 Download PDFInfo
- Publication number
- CN111984781A CN111984781A CN202010434049.3A CN202010434049A CN111984781A CN 111984781 A CN111984781 A CN 111984781A CN 202010434049 A CN202010434049 A CN 202010434049A CN 111984781 A CN111984781 A CN 111984781A
- Authority
- CN
- China
- Prior art keywords
- bias
- component
- overall
- chain
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims description 67
- 238000004458 analytical method Methods 0.000 claims description 29
- 239000000470 constituent Substances 0.000 claims description 28
- 238000003058 natural language processing Methods 0.000 claims description 27
- 238000012549 training Methods 0.000 claims description 26
- 230000015654 memory Effects 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 18
- 230000008901 benefit Effects 0.000 claims description 11
- 238000004891 communication Methods 0.000 claims description 10
- 230000002829 reductive effect Effects 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 34
- 230000006870 function Effects 0.000 description 25
- 238000010586 diagram Methods 0.000 description 22
- 238000012015 optical character recognition Methods 0.000 description 9
- 230000008447 perception Effects 0.000 description 6
- 239000012634 fragment Substances 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 238000010191 image analysis Methods 0.000 description 3
- 230000003211 malignant effect Effects 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 206010028980 Neoplasm Diseases 0.000 description 2
- 230000004075 alteration Effects 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 230000008094 contradictory effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000036210 malignancy Effects 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000009172 bursting Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000009699 differential effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000004310 photopic vision Effects 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及偏见最小化的自动概括。处理器可以接收记录。记录可以包括一个或多个文本片段。处理器可以用指示符标记每个文本片段。指示符可以表示相应的文本片段中的每个文本片段中的特定的偏见实例。处理器可以自动地生成记录的概要。记录的概要可以包括文本片段的集合。文本片段的集合可以具有与记录不同的整体偏见。处理器可以向用户显示记录的概要。
Description
技术领域
本公开总体上涉及记录概括领域,更具体地涉及同时约束记录内的偏见的记录的自动概括。
背景技术
概括(summarization)技术,特别是与文本记录(例如学术报告、法律文件、专栏文章等)相关的那些概括技术,越来越普遍用于使用户快速地扫描记录的主要话题、摄取关于记录的关键信息,和/或使用户识别他们正在创建的记录中的任何缺陷。然而,截至目前,概括技术没有考虑和纠正记录内的感知偏见(bias),这可能导致用户偏离特定记录,和/或可能导致用户向其他用户呈现有偏见的记录。
发明内容
本公开的实施例包括一种用于自动地概括记录同时约束该记录内的偏见的方法、计算机程序产品和系统。处理器可以接收记录。记录可以包括一个或多个文本片段。处理器可以用指示符标记每个文本片段。指示符可以表示每个相应的文本片段中的特定的偏见实例。处理器可以自动地生成记录的概要。记录的概要可以包括文本片段的集合。文本片段的集合可以具有与记录不同的整体偏见。处理器可以向用户显示记录的概要。
以上发明内容并非意图描述本公开的每个例示说明的实施例或每个实现。
附图说明
本公开中所包括的附图被合并到本说明书中,并且形成本说明书的部分。它们例示说明本公开的实施例,并且与描述一起用于解释本公开的原理。附图仅是某些实施例的例示说明,而不限制本公开。
图1A例示说明根据本公开的实施例的用于输出文本的提取式概要的示例系统架构。
图1B例示说明根据本公开的实施例的用于输出文本的抽象式概要的示例系统架构。
图2例示说明根据本公开的实施例的用于向用户显示记录的提取式概要的示例方法的流程图。
图3例示说明根据本公开的实施例的用于向用户显示记录的抽象式概要的示例方法的流程图。
图4例示说明可以实现本公开的说明性实施例的示例计算环境的框图。
图5例示说明根据本公开的实施例的被配置为对记录进行分析以识别查询的特定主题的示例自然语言处理系统的框图。
图6描绘根据本公开的实施例的云计算环境。
图7描绘根据本公开的实施例的抽象模型层。
图8例示说明根据本公开的实施例的可以用于实现本文中所描述的方法、工具和模块中的一个或多个以及任何相关的功能的示例计算机系统的高级框图。
虽然本文中所描述的实施例可以进行各种修改和可替代的形式,但是其细节已经在附图中以示例的方式示出,并且将被详细描述。然而,应理解的是,所描述的特定实施例不应以限制的意义来看待。相反,意图是要涵盖落在本发明的精神和范围内的所有的修改、等同和替代。
具体实施方式
本公开的方面涉及记录概括领域,更具体地涉及同时约束记录内的偏见的记录的自动概括。虽然本公开不一定限于这样的应用,但是本公开的各方面可以通过讨论使用该上下文的各种例子来领会。
最近,记录概括模型和技术的使用一直在增加,这些记录概括模型和技术帮助用户整合信息并且更容易地消费适宜大小的信息。然而,现有的记录概括模型和技术缺乏识别并纠正可能在记录中发现的任何类型的偏见(例如对主题的意见过于偏袒、对话题过于负面、对话题过于乐观等)的能力。
例如,比如说新闻记者撰写了一篇捕获关于某个话题的相对的两方(例如正面/负面、肯定/矛盾等)的新闻文章。如今的概括器将提取关于该话题的双方的信息,但是不保证为两方提供足够的覆盖。也就是说,他们冒着拾取该话题的所有的正面方(或所有的负面方)、所有的肯定方(或所有的矛盾方)的风险。
在这样缺乏足够地覆盖话题的能力的情况下,用户更有可能向世界发布有偏见的信息和/或消费来自受污染的来源的有偏见的信息。在如今的现有框架中,将有益的是,存在某种方式执行使偏见最小化并且为用户提供基于事实的、不偏袒的信息的记录概括。
因此,在一些实施例中,处理器可以接收记录(例如书、文章、通过语音转文本生成的对话等)。记录可以包括一个或多个文本片段。处理器可以用指示符标记每个文本片段。指示符可以表示相应的每个文本片段中的特定的偏见实例。处理器可以自动地生成记录的概要。记录的概要可以包括文本片段的集合。文本片段的集合可以具有/包括与记录不同的整体偏见。处理器可以向用户显示记录的概要。
在一些实施例中,用指示符标记每个文本片段可以包括处理器使用自然语言处理技术对一个或多个文本片段进行分析。处理器可以根据该分析识别一个或多个文本片段中的每个文本片段内的关键文本触发器。关键文本触发器可以是识别为指示偏见的一个或多个单词。
例如,概括器可以接收关于人工智能理解的文档(例如记录)。该文档可以包括摘录:
托尼:“我们将稍后稍微回到虚拟现实的本质,真正本质。但是首先,哲学家正在问的问题是:虚拟现实有一天将具有将物理对象输入到数字通道中的能力吗?”
罗伯特:“不会。虚拟现实涉及欺骗用户的视听感觉。然而,虚拟现实程序理解数字世界中的对象应该对用户具有的影响,就好像该对象处于物理世界中一样。它当然理解山具有斜坡并且可以攀登。但是在没有附加的机械帮助的情况下,它没有任何方式为用户生成该斜坡。它不具有自行创建物理对象的能力。除了增强用户的视听感觉之外,它不具有做任何事的能力。”
在一些实施例中,概括器可以对摘录进行分析,并且确定摘录的托尼的部分对关于虚拟现实的文档的主要内容没有任何作用。概括器然后可以转到摘录的罗伯特的部分,并且确定它几乎仅关于虚拟现实,并且开始标记罗伯特的部分的每个片段。在一些实施例中,为了标记罗伯特的部分的每个片段,概括器可以将罗伯特的部分划分为以下片段:
片段(S)1:不会。
S2:虚拟现实涉及欺骗用户的视听感觉。
S3:然而,虚拟现实程序理解数字世界中的对象应该对用户具有的影响,就好像该对象处于物理世界中一样。
S4:它当然理解山具有斜坡并且可以攀登。
S5:但是在没有附加的机械帮助的情况下,它没有任何方式为用户生成该斜坡。
S6:它不具有自行创建物理对象的能力。
S7:除了增强用户的视听感觉之外,它不具有做任何事的能力。
注意,片段是在摘录的罗伯特的部分中发现的单个的句子。在其他实施例中,片段可以是记录的任何构成要素,诸如每个单词、每个段落、每页等。
使用自然语言处理技术的概括器(将关于图4和图5进一步进行讨论)可以(例如通过使用条件随机场建模方法)将每个片段标记为正面或者负面。正面的标记指示片段包括从正面的角度看待虚拟现实的信息(可以通过片段中的最高级的单词和/或整体正面的上下文来识别,例如,虚拟现实可以做一些事);负面的标记指示片段包括从负面的角度看待虚拟现实的信息(可以通过片段中的普通的单词和/或整体糟糕的上下文来识别,例如,虚拟现实不能做一些事)。
继续以上例子,概括器将S1标记为负面,由于使用单词“不会”;将S2标记为正面,因为虚拟现实能够理解对象对用户可能具有的影响的正面的上下文;将S3标记为正面,因为虚拟现实能够理解物理影响的正面的上下文;将S4标记为正面,因为虚拟现实能够再次理解物理影响的正面的上下文;将S5标记为负面,因为使用了单词“但是”和“没”;将S6标记为负面的,因为使用了单词“不”;并且将S7标记为负面的,因为使用了单词“不”。
注意,在一些实施例中,概括器可以使用触发器单词(诸如“不”和“没”)来为每个片段确定标记,在其他实施例中,它可以使用所述单词作为对每个片段的上下文的洞悉,并且基于上下文来标记每个片段。
在标记摘录的罗伯特的部分的每个片段之后,概括器可以识别出摘录的整体偏见(基于罗伯特的部分)是负面的,因为相比于三个正面的片段S2、S3和S4,S1、S5、S6和S7全都是负面的。
概括器然后可以从可能的七个片段中选择四个片段(例如,概括器被预先编程为将文本概括为四行/四个片段,控制器/用户告诉概括器仅输出四个片段的概要,概括器确定四个片段是适当地概括摘录的罗伯特的部分/摘录所需的全部,等)。处理器为了减小负面的整体偏见(并且在一些实施例中,保持中性的偏见),可以输出S1、S2、S3、S7的概要,这些概要将是负面的、正面的、正面的、负面的概要,这些概要的内容为:
“不会。虚拟现实涉及欺骗用户的视听感觉。然而,虚拟现实程序理解数字世界中的对象应该对用户具有的影响,就好像该对象处于物理世界中一样。[但是]除了增强用户的视听感觉之外,它不具有做任何事的能力。”
在一些实施例中,概括器在采取每个片段时可以考虑用户的偏袒。例如,概括器可以从用户简档识别出用户反虚拟现实并且将S6标记为正面,因为不能创建/生成物理对象的虚拟现实对于该用户而言可能是正面的。
在一些实施例中,识别关键文本触发器可以包括处理器摄取训练记录的一个或多个语料库。训练记录可以包括参考的偏见实例。处理器可以从训练记录的上下文确定每个训练记录的偏见程度。处理器可以将每个训练记录的偏见程度与相应的单词相关联。
例如,可以通过摄取医学研究的大型语料库来在单词、短语等的上下文和意义上训练医学概括器。医学概括器可以确定术语“恶性”和“不太可能”通常以负面的患者结果结束。医学概括器然后可以识别出“恶性”在治疗之后具有较高的患者恢复的可能性,并且医学概括器可以将小于“不太可能”的偏见程度分配给术语“恶性”,“不太可能”可能不具有在其使用之后讨论的治疗计划。下面关于图1A讨论概括器确定偏见/轻视程度的进一步训练。
在一些实施例中,处理器可以确定文本的一个或多个片段中的一个片段包括第一相应单词。处理器可以基于第一相应单词将偏见程度与所述一个片段相关联。接着以上示例,现在每当医学概括器在句子中识别出单词“恶性”,它可以将仅分配给单词恶性的偏见程度(例如负面的含义)分配给该句子。这可以使得医学概括器(例如处理器、系统等)可以更快速地处理/摄取信息和/或输出概要。
在一些实施例中,生成记录的概要可以包括处理器识别出存在要用于概要的设定的数量的文本片段。处理器可以针对可以基于所述设定的数量生成的所述一个或多个文本片段的每种排列生成链。所述链可以基于文本的指示符的每个片段。处理器可以选择对整体偏见具有改变的第一链。可以自动地确定对整体偏见的改变以限制最初的整体偏见。
例如,系统可以接收这个对话来概括:
“我的编码语言将成为计算机科学领域中的下一件大事。它比外面的任何编码语言好得多。陈旧的编码语言令你使用非直观的命令。我的编码语言让你用普通的术语键入命令来生成期望的结果。有了我的编码语言,不需要使用任何其他编码语言。再说一次,所有的其他编码语言都将过时。请在这个日期参加我的网络直播研讨会来学习我的编码语言。”
系统可以分析该对话的每个句子,并且给予每个句子关于某种偏见(例如反对旧的计算语言的偏见、趋向新的计算语言的偏见、信息偏见等)的指示符。系统可以像这样分析对话:
句子(S)1:“我的编码语言将成为计算机科学领域中的下一件大事。”—新的计算语言偏见。
S2:“它比外面的任何编码语言好得多。”—旧的计算语言偏见。
S3:“陈旧的编码语言令你使用非直观的命令。”—旧的计算语言偏见。
S4:“我的编码语言让你用普通的术语键入命令来生成期望的结果。”—新的计算语言偏见。
S5:“有了我的编码语言,不需要使用任何其他编码语言。”—旧的计算语言偏见。
S6:“再说一次,所有的其他编码语言都将过时。”—旧的计算语言偏见。
S7:“请在这个日期参加我的网络直播研讨会来学习我的编码语言。”——新的计算语言偏见。
系统可以从该对话确定该对话的整体要点是使人们参加网络直播研讨会来学习新的编码语言,并且系统可以确定仅三个句子是使这样的要点传达给个人所需的。系统然后可以针对句子的每种组合生成三个链接的链。
链1:S1、S2、S3;
链2:S1、S3、S4…
链7:S5、S1、S8;…等。
系统可以选择最能代表发言者的新的编码语言较于原始的编码语言更易于使用的要点并且具有新的计算语言偏见的链,因为原始对话具有含有新的计算语言偏见的三个句子,相对于此,具有含有旧的计算语言偏见的四个句子(例如,原始对话具有整体的旧的计算语言偏见)。系统可以选择S3、S4、S7的链,因为它通过S4和S7具有整体的新的计算语言偏见,并且呈现发言者(例如用户)要求人们参加该用户的网络直播的要点。然后将生成链S3、S4、S7,并且将其向该用户和其他用户显示为:
“陈旧的编码语言令你使用非直观的命令。我的编码语言让你用普通的术语键入命令来生成期望的结果。请在这个日期参加我的网络直播研讨会来学习我的编码语言。”
注意,系统选择不仅是不利偏见、而且还与用户尝试传达对话的目标一致的链,例如,这是系统选择将片段S7保留在生成的概要中的原因。
在一些实施例中,当针对可以基于所述设定的数量生成的所述一个或多个文本片段的每种排列生成链时,处理一次一个链接地为每个链生成链接,一直到所述设定的数量。处理器在包括新的链接之后对每个链进行分析。处理器在每个新的链接之后确定一个或多个链是否在偏见阈值以上(其中在偏见阈值以上指示输出中的不想要的偏见)。处理器排除所述一个或多个链中的在偏见阈值以上的每个链,不向其添加新的链接,并且不认为其是要用于概要的链。
接着以上例子,系统可以仅在三个链接的链中的两个链接之后确定具有两个旧的计算语言偏见的任何链(例如S2和S3、S3和S5等)在偏见阈值以上并且不应作为可能的概要候选而继续进行。系统可以通过识别出概要的主要焦点是具有新的计算语言偏见而不是旧的计算语言偏见来对其进行确定。因此,如果三个链接的链具有两个旧的计算语言偏见,则概括不能实现新的计算语言偏见。
在一些实施例中,当选择对整体偏见具有改变的第一链时,处理器从针对所述一个或多个片段的每种排列的每个链中识别出每个链的相应的预测偏见。处理器可以排除具有在偏见阈值以上的相应的预测偏见的每个链。处理器可以排除具有在信息阈值以下的相应的预测偏见的每个链。处理器可以在排除具有在偏见阈值以上的相应的预测偏见的每个链并且排除具有在信息阈值以下的相应的预测偏见的每个链之后,对每个剩余的链进行排名。第一链是排名在剩下的其他链中的每个链以上的链。
再次接着以上例子,系统可以从分配给每个句子的先前指定的指示符识别出链有可能具有旧的计算语言偏见或者新的计算语言偏见。系统可以排除具有可能的(整体)旧的计算语言偏见的每个链,不将其寻求为概要。系统可以另外查看每个链,并且基于用户的目标来确定该链作为概要是否将是一致的。
例如,系统可以排除链S1、S3、S4,其内容为:
“我的编码语言将成为计算机科学领域中的下一件大事。陈旧的编码语言令你使用非直观的命令。我的编码语言让你用普通的术语键入命令来生成期望的结果。”
该链在旧的计算语言偏见以下,但是概要缺乏行动的号召(例如没有超过/不满足信息阈值),这将使读者/其他用户不理解或误解最初的用户想要什么,例如,使其他用户学习新的计算语言。
在排除将在旧的计算语言偏见阈值以上且在信息阈值以下的概要之后,系统可以对剩余的链进行排名(例如基于它们的一致性如何、主要要点是否被传达等),概括排名第一的链,并且将它呈现给所述用户或其他用户。
在一些实施例中,可以通过其他手段生成概要。例如,不是所选择的碎片(例如,片段、构成要素等)使它们的偏见被考虑,而是可以考虑概要的生成的碎片的组合,其中整体偏见是最小化的。
在一些实施例中,处理器可以接收记录。记录可以包括一个或多个文本片段。处理器可以自动地生成记录的第一概要。处理器可以确定第一概要的整体偏见。可以从第一概要中的一个或多个偏见实例中识别出第一概要的整体偏见。处理器可以生成记录的第二概要。记录的第二概要可以包括第一概要的整体偏见的指示符。指示符可以包括第一概要的整体偏见的类型的描述和第一概要的整体偏见的数值。处理器可以确定第二概要的整体偏见。处理器可以向用户显示记录的第二概要。
例如,概括器可以接收具有200个句子的新闻文章,该新闻文章是关于家居装修的。在一些实施例中,概括器识别出该新闻文章的整体偏见支持“自己动手者”。概括器然后可以生成长度为10个句子并且被识别为具有趋向获得家居装修项目的承包商的偏见的第一概要。概括器可以识别出趋向获得家居装修项目的承包商的偏见过于偏离原始文章,并且生成所述概要现在偏离多远的数值。
例如,生成的数值可以为0.7,指示概要中的10个所用句子中的7个句子偏重“承包商”并且这应该被避免。概括器然后可以生成第二概要,但是这次是通过使用数字并且当向概括器示出每个句子时确定是否包括承包商来生成。在这样的实施例中,概括器进行成本/利益分析,并且具有承包商的句子由于第一概要的不令人满意的本质/偏见而使其进入第二概要中是不太可能的。
在一些实施例中,概括器进行概要的一次或多次迭代(例如第二、第三、第四等),直到识别出具有指示整体期望偏见的数值的概要为止。在一些实施例中,整体期望偏见可以具有不偏袒概要(例如“自己动手者”和承包商之间的相等偏见),或者整体期望偏见可以具有偏袒概要。在一些实施例中,新闻文章可以充当第一概要。也就是说,概括器可以确定新闻文章的整体偏见,并且使用与新闻文章的整体偏见相关的数字来生成新闻文章的一个或多个概要。
在一些实施例中,确定第一概要的整体偏见可以包括处理器对第一概要的每个构成要素(例如概要、单词、段落等)进行分析。处理器可以从每个构成要素中识别出偏见程度。处理器可以用相应的偏见程度指示符标记每个构成要素。处理器可以根据每个偏见程度指示符确定差异性影响比率。所述差异性影响比率可以与第一概要的整体偏见的数值相关联。
接着以上例子,概括器可以针对承包商偏见程度对第一概要中的每个句子进行分析。例如,可以向句子“没有人喜欢付钱给承包商”给予偏见程度1,因为它是反对承包商的绝对陈述。然而可以向句子“我们想要亲自更新我们的厨房”给予偏见程度0.5,因为它暗示不喜欢承包商,但是不是完全的谴责。
概括器可以采取偏见程度,并且为第一概要确定差异性影响比率,所述差异性影响比率示出第一概要的读者/用户的整体的组合的偏见程度对承包商将具有的影响。当生成对承包商不太有影响的第二概要时,概括器可以使用所述差异性影响比率。
在一些实施例中,生成记录的第二概要包括处理器生成第一构成要素(或者拷贝记录的第一构成要素作为概要的第一构成要素)。处理器通过利用第一概要的整体偏见的指示符来确定生成第二概要的第二构成要素。第一构成要素和第二构成要素的组合可以不超过第一概要的整体偏见的数值。处理器可以确定不生成第二概要的第三构成要素。第一构成要素、第二构成要素和第三构成要素的组合可以超过第一概要的整体偏见的数值。
在一些实施例中,处理器可以确定生成第二概要的第四构成要素。第一构成要素、第二构成要素和第四构成要素的组合可以超过第一概要的整体偏见的数值。处理器可以确定生成第二概要的第五构成要素。第五构成要素可以使第一构成要素、第二构成要素、第四构成要素和第五构成要素的组合降至第一概要的整体偏见的数值以下。
例如,在确定第一概要的偏见/差异性影响之后,系统可以开始一次一个构成要素地生成第二概要,并且考虑第一概要的偏见(因为第二概要想要具有第一概要的偏见以下的偏见)。系统可以在每个构成要素被添加到第二概要之前查看该构成要素,并且确定所添加的构成要素是否将超过第一概要的偏见。在一些实施例中,系统可以这样做,直到达到期望数量的构成要素来生成第二概要为止。在其他实施例中,系统可以添加构成要素,直到第二概要实现阈值偏见为止。
例如,系统可以识别出学术报告是由10个教授草拟的:两个副教授、三个助理教授和五个终身教授。系统可以确定第一概要长度为三个句子,并且每个句子是从终身教授的陈述中选择的。系统可以向第一概要给予示出趋向终身教授的偏见的偏见指示符。系统然后可以通过选择来自10个教授中的任何教授的任何陈述来生成第二概要(因为在生成开始时是没有偏见的)。
系统可能已经选择了来自终身教授的陈述作为第一句子,现在系统为了保持非偏袒性,可以识别出第二陈述正被提交以被添加到第二概要,然而,该陈述也是由终身教授所述的。系统可以丢弃该陈述,并且选择助理教授所述的陈述作为第二句子。系统然后可以遵循以上提供的相同的步骤,并且选择来自副教授的陈述作为最后的句子(例如,这样,每组教授得以在第二概要中呈现他们的学术思想)。
在一些实施例中,利用第一概要的整体偏见的指示符可以包括处理器识别第一概要的整体偏见的类型。处理器可以将第二概要的整体偏见调节为第一概要的整体偏见的类型的相反类型。
例如,竞争对手新闻公司可以采取反对派的新闻陈述,并且使用概括器生成该新闻陈述的第一概要。竞争对手新闻公司可以从第一概要中识别出反对派对于该新闻陈述中存在的话题的立场,并且确定他们想要提供反对意见。竞争对手新闻公司然后可以将他们想要的偏袒的并且与第一概要相反的概要输入到概括器。
在一些实施例中,将第二概要的整体偏见调节为第一概要的整体偏见的类型的相反类型可以包括处理器在添加第二概要的每个新的构成要素之前执行优点/缺点(例如成本/利益)分析。优点/缺点分析可以包括如果新的构成要素是第一概要的整体偏见的相同类型,则降低将该新的构成要素添加到第二概要的概率。如果新的构成要素是第一概要的整体偏见的相反类型,则处理器也可以提高将该新的构成要素添加到第二概要的概率。
接着以上例子,根据新闻陈述生成的第一概要可能已经具有赞成视频游戏的整体偏见,并且当生成第二概要时,概括器可以寻找负面的视频游戏评论。因此,概括器更有可能将比如“视频游戏引起眼睛问题”的陈述而不是“视频游戏提高手眼协调”的陈述包括在第二概要中。
在一些实施例中,向用户显示记录的第二概要可以包括处理器确定第二概要的整体偏见的数值在第一概要的整体偏见的数值以下。处理器可以识别第二概要的整体偏见的数值在预定的偏见阈值以下,并且处理器可以同意显示第二概要。
例如,作为添加的一层偏见安全性,系统可以要求要呈现给用户的概要不仅在偏见方面低于原始记录和/或概要,而且达到偏见界限或在偏见界限以下。在一些实施例中,这可以使系统生成后续的(例如第三、第四等)概要,直到概要中的一个概要具有在预定的偏见阈值以下的整体偏见为止。
现在参照图1A,该图例示说明了根据本公开的实施例的用于输出文本的提取式概要的示例系统架构100。关于系统架构100,设X=(x1,x2,…xm)为数据序列上的随机变量,Y=(y1,y2,…ym)为标签序列上的随机变量,并且设B=(b1,b2,…bn)为一组不同类型的偏见。
使用条件随机场作为序列标签符(指示符)的实例,如果ZX为规范化/边缘化因子,fk(yi-1,yi,X)为位置i和i-1处的整个观察序列上的特征函数;gl(yi,X)为位置i和观察序列处的特征函数;hr,s(yi-1,yi,X)为针对所有的给定的偏见类型的位置i-1和i处的整个观察序列上的偏见函数;λk和μ1分别是针对特征函数fk和gl学习的权重,ηrs是针对所有的偏见类型的针对偏见函数hr,s学习的权重,则概率Y将以X为条件表示如下:
P(Y|X)=(1/ZX)exp(∑i,kλkfk(yi-1,yi,X)+∑i,lμlgl(yi,X)+∑i,r∑i,sηrshr,s(yi-1,yi,X)).
如果训练数据的序列被定义为Ψ={(X1,Y1),(X2,Y2),…,(Xm,Ym)},则通过使训练数据中的有标签的序列的条件对数似然最大化来执行学习,所述条件对数似然被定义为:
LΛ=∑j=1,2,…,m log(PΛ(Yj|Xj))
在一些实施例中,可以添加正则项以避免过拟合。
此外,在系统架构100所使用的系统中存在两个标签—(s)概要和(ns)非概要—针对文本碎片/构成要素(诸如句子或更小的定义明确的碎片)中的每个文本碎片/构成要素;当yi为概要而yi-1不是概要时,标签的值对于yi可以为s,而对于yi-1可以为ns;xi类似于xi-1(在阈值以上),并且yi和yi-1之间的所有类型的偏见的差在阈值以上。以上提及的内容被用于训练使用系统架构100的系统,并且现在针对学习概括来训练该系统。
继续系统架构100的概括方面,序列中的最可能的标签(指示/偏见)将被获得为Y’=argmax PΛ(Y|X)。序列中的每个状态的边际概率是经由前向-后向过程计算出的。
前向alpha值被计算为:
αi+1(y|X)=∑y’αi(y’|X)exp(Λi(y’,y,X)).
在上面,Λi(y’,y,X)被计算为:
Λi(y’,y,X)=∑kλkfk(yi-1=y’,yi=y,X)+∑lμlgl(yi=y,X)+∑r∑sηrshr,s(yi-1=y’yi=y,X).
Zx被发现为∑yαi(y|X)。类似地,计算出后向beta值βi(y|X)。
给定整个文本输入,作为最后一个概要的一部分的基于其标签/指示符/偏见的文本碎片的边际概率被计算为:
P(yi=1|X)=(αi(1|X).βi(1|X))/ZX
最后,通过使用P(yi=1|X)对句子进行排序并且按它们在输入句子中出现的相同的顺序输出排名前几位的句子来生成概要。
现在参照图1B,该图例示说明了根据本公开的实施例的用于输出文本的抽象式概要的示例系统架构110。关于系统架构110,遵循抽象式概括、迭代方法。
初始的抽象化概要和/或记录(未示出)针对系统架构110而生成,并且被发送给构成要素生成系统112。构成要素生成系统112将第一概要的构成要素(例如句子等)发送给(例如可能已经类似于关于图1A的系统参考进行了训练的)偏见类型和值测量器114。初始概要的偏见度量由偏见类型和值测量器114计算,并且如果发现初始概要没有偏见,则计算机架构110所利用的处理结束。
如果确定初始概要有偏见,则重新调用计算机架构110所利用的处理,并且从偏见类型和值测量器114将签名传递给提供偏见的类型和值(例如,反对养狗人的偏见,其差别性影响为0.7)的该重新调用。
在生成没有偏见的抽象式概要118的重新生成处理中,每当考虑生成从句/句子/构成要素时,它就通过具有基于偏见类型和值的优点/缺点的构成要素生成系统116传递,例如,将附加的奖励/惩罚应用于与生成的偏见的值成比例的构成要素。只要生成的构成要素包括偏见创建元素中的任何一个(诸如,如果它具有任何与养狗相关的文本),就更有可能生成引入较少偏见的组成从句/句子。计算机架构110利用所描绘的处理,直到可以生成抽象式(例如第二、后续的等)概要118为止,其中抽象式概要118具有最小偏见。
现在参照图2,该图例示说明了根据本公开的实施例的用于向用户显示记录的提取式概要的示例方法200的流程图。在一些实施例中,方法200由处理器和/或系统中的处理器执行。在一些实施例中,方法200由为图1A的系统架构100提供的系统执行。
在一些实施例中,方法200从操作202处开始。在操作202处,处理器接收记录。记录包括一个或多个文本片段。方法200行进到处理器用指示符(例如标签等)标记每个文本片段的操作204。指示符表示相应的文本片段中的每个文本片段中的特定的偏见实例。
在一些实施例中,方法200行进到操作206。在操作206处,处理器自动地生成记录的概要。记录的概要包括文本片段的集合。选定数量的一个或多个文本片段具有与记录不同的整体偏见。
在一些实施例中,方法200行进到处理器向用户显示记录的概要的操作208。在一些实施例中,在操作208之后,方法结束。
现在参照图3,该图例示说明了根据本公开的实施例的用于向用户显示记录的抽象式概要的示例方法300的流程图。在一些实施例中,方法300由处理器和/或系统中的处理器执行。在一些实施例中,方法300由为图1B的系统架构110提供的系统执行。
在一些实施例中,方法300从处理器接收记录的操作302处开始。记录包括一个或多个文本片段。方法300行进到处理器自动地生成记录的第一概要的操作304。
在一些实施例中,方法300行进到确定是否存在第一概要的整体偏见或者在第一概要中是否存在整体偏见的决策框306。第一概要的整体偏见是从第一概要中的一个或多个偏见实例(例如从第一概要的构成要素中的偏见)中识别出的。
如果在第一概要中没有检测到整体概要,则方法300行进到操作312,其中记录的第一概要被显示给用户。在一些实施例中,在操作312之后,方法300结束。
在一些实施例中,如果在第一概要中没有检测到整体偏见,则方法300行进到操作308。在操作308处,处理器生成记录的另一个(例如第二)概要。记录的其他概要包括第一概要的整体偏见的指示符。指示符包括第一概要的整体偏见的类型的描述和第一概要的整体偏见的数值。
在一些实施例中,在操作308之后,方法300行进到决策框310。在决策框310处,确定是否存在其他概要的整体偏见。如果确定存在其他概要的整体偏见,则方法300重复操作308和决策框310,直到生成没有整体偏见(例如在偏见阈值以上)的另一个(例如第三、第四、第五等)概要为止。
如果在决策框310处确定不存在其他概要的整体偏见,则方法300行进到操作312。在操作312处,处理器向用户显示概要(例如,如果没有确定/检测到偏见,则显示第一概要,或者显示另一个概要)。在一些实施例中,在操作312之后,方法300结束。
如以上所讨论的,本公开的方面可以涉及自然语言处理。因此,可以通过描述自然语言处理系统的实施例和这些系统可以在其中操作的环境来帮助理解本发明的实施例。
现在转到图4,该图例示说明了可以实现本公开的说明性实施例的示例计算环境400的框图。在一些实施例中,计算环境400可以包括远程设备402和主机设备422。在一些实施例中,远程设备402或者主机设备422可以是聊天机器人。在一些实施例中,远程设备402和主机设备422这二者都可以是聊天机器人。
在一些实施例中,主机设备422和远程设备402可以是计算机系统。远程设备402和主机设备422可以分别包括一个或多个处理器406和426以及一个或多个存储器408和428。远程设备402和主机设备422可以被配置为通过内部或外部网络接口404和424彼此进行通信。网络接口404和424可以是调制解调器或者网络接口卡。远程设备402和/或主机设备422可以配备有发射或监视器。另外,远程设备402和/或主机设备422可以包括可选的输入设备(例如键盘、鼠标、扫描仪或者其他输入设备)和/或任何商业化或定制的软件(例如浏览器软件、通信软件、服务器软件、自然语言处理软件、搜索引擎和/或web爬取软件、用于基于预定义的参数对内容进行过滤的过滤器模块等)。在一些实施例中,远程设备402和/或主机设备422可以是服务器、台式机、膝上型电脑或者手持设备。
远程设备402和主机设备422可以彼此远离并且通过网络450进行通信。在一些实施例中,主机设备422可以是远程设备402可以从其建立通信连接的中心集线器,诸如客户端-服务器联网模型中的中心集线器。可替代地,主机设备422和远程设备402可以被配置为任何其他合适的联网关系(例如,对等配置或者使用任何其他网络拓扑)。
在一些实施例中,网络450可以使用任何数量的任何合适的通信介质来实现。例如,网络450可以是广域网(WAN)、局域网(LAN)、互联网或者内联网。在某些实施例中,远程设备402和主机设备422可以在彼此本地并且经由任何适当的本地通信介质进行通信。例如,远程设备402和主机设备422可以使用局域网(LAN)、一个或多个硬线连接、无线链路或者路由器或者内联网来进行通信。在一些实施例中,远程设备402和主机设备422可以使用一个或多个网络和/或一个或多个本地连接来通信地耦合。例如,远程设备402可以被硬连线到主机设备422(例如与以太网线缆连接),或者远程设备402可以使用网络450(例如通过互联网)与主机设备进行通信。
在一些实施例中,网络450可以在云计算环境内实现,或者使用一个或多个云计算服务来实现。与各种实施例一致地,云计算环境可以包括提供一个或多个云计算服务的基于网络的分布式数据处理系统。此外,云计算环境可以包括部署在一个或多个数据中心内并且被配置为通过网络450共享资源的许多计算机(例如数百个或数千个计算机或者更多)。
在一些实施例中,远程设备402可以使得用户能够将查询输入(或者可以通过用户或者不通过用户自动地输入)到主机设备422,以识别包括特定主题的记录的细分。例如,远程设备402可以包括查询模块410和用户界面(UI)。查询模块410可以是web浏览器的形式或者任何其他合适的软件模块,并且UI可以是任何类型的界面(例如命令行提示、菜单屏幕、图形用户界面)。UI可以使得用户能够与远程设备402交互,以使用查询模块410将查询输入到主机设备422,主机设备422可以接收查询。
在一些实施例中,主机设备422可以包括自然语言处理系统432。自然语言处理系统432可以包括自然语言处理器434、搜索应用436以及记录模块438。自然语言处理器434可以包括许多子组件,诸如分词器、词性(part-of-speech,POS)标注器、语义关系识别器和句法关系识别器。参照图5来更详细地讨论示例自然语言处理器。
搜索应用436可以使用常规的或者其他搜索引擎来实现,并且可以跨多个计算机系统分布。搜索应用436可以被配置为搜索一个或多个数据库(例如储存库)、其他计算机系统和/或针对与远程设备402所提交的查询相关的内容的其他聊天机器人。例如,搜索应用436可以被配置为搜索词典、论文、存档的报告和/或其他相关数据库,以帮助识别与特定偏见相关的特定主题。记录分析模块438可以被配置为对记录进行分析,以识别特定类型和/或程度的偏见,如果记录包括这样的偏见和/或具有这样的偏见的构成要素。记录分析模块438可以包括一个或多个模块或单元,并且可以利用搜索应用436来执行其功能(例如识别记录中的特定偏见),如参照图5更详细地讨论的那样。
在一些实施例中,主机设备422可以包括图像处理系统442。图像处理系统442可以被配置为对与记录相关联的图像进行分析,以创建图像分析。图像处理系统442可以利用一个或多个模型、模块或单元来执行其功能(例如对与记录相关联的图像进行分析并且生成图像分析)。例如,图像处理系统442可以包括被配置为识别与记录相关的特定图像的一个或多个图像处理模型。图像处理模型可以包括章节分析模块444,以对与记录相关联的单个的图像进行分析,并且识别这些单个的图像的一个或多个特征的位置。作为另一个例子,图像处理系统442可以包括细分模块446,以将被识别为具有所述一个或多个特征中的共同特征的多个图像分组在一起。在一些实施例中,可以将图像处理模型实现为软件模块。例如,图像处理系统442可以包括章节分析模块和细分分析模块。在一些实施例中,单个软件模块可以被配置为使用图像处理模型对(一个或多个)图像进行分析。
在一些实施例中,图像处理系统442可以包括阈值分析模块448。阈值分析模块448可以被配置为将在记录的章节的细分(例如构成要素、片段等)中识别出的特定主题的实例与可以包括已知偏见/参考偏见的阈值数量的参考实例进行比较。阈值分析模块448然后可以确定是否应将该细分发送给用户。在其他实施例中,阈值分析模块448可以用于帮助确定针对生成的每个构成要素、片段和/或概要的偏见的数值指示符。
在一些实施例中,主机设备可以具有光学字符辨识(OCR)模块。OCR模块可以被配置为接收从远程设备402发送的记录,并且对该记录执行光学字符辨识(或相关处理),以将它转换为机器编码的文本,使得自然语言处理系统432可以对报告执行NLP。例如,远程设备402可以将学术争论的视频发送给主机设备422。OCR模块可以将视频转换为机器编码的文本,然后转换后的视频可以被发送给自然语言处理系统432以进行分析。在一些实施例中,OCR模块可以是自然语言处理系统432的子组件。在其他实施例中,OCR模块可以是主机设备432内的独立的模块。在其他实施例中,OCR模块可以位于远程设备402上,并且可以在记录被发送给主机设备422之前对记录执行OCR。
虽然图4例示说明了具有单个主机设备422和远程设备402的计算环境400,但是用于实现本公开的实施例的合适的计算环境可以包括任何数量的远程设备和主机设备。图4所示的各种模型、模块、系统和组件可以跨多个主机设备和远程设备而存在(如果有的话)。例如,一些实施例可以包括两个主机设备。这两个主机设备可以使用任何合适的通信连接(例如使用WAN、LAN、有线连接、内联网或者互联网)通信地耦合。第一主机设备可以包括被配置为接收并分析视频的自然语言处理系统,第二主机设备可以包括被配置为接收并分析.GIFS的图像处理系统,以生成图像分析。
注意,图4意图描绘示例性计算环境400的代表性的主要组件。然而,在一些实施例中,独立的组件可以具有比图4所表示的组件高或低的复杂性,可以存在不同于图4所示的那些组件的组件或者除了图4所示的那些组件之外的组件,并且这样的组件的数量、类型和配置可以变化。
现在参照图5,该图示出了根据本公开的实施例的包括自然语言处理系统512的示例性系统架构500的框图,自然语言处理系统512被配置为对查询和/或查询的关键特征进行分析,以识别条件和准则。在一些实施例中,远程设备(诸如图4的远程设备402)可以将要分析的记录和/或概要提交给自然语言处理系统512,自然语言处理系统512可以被容纳在主机设备(诸如图4的主机设备422)上。这样的远程设备可以包括客户端应用508,客户端应用508本身可以包含可操作为生成或修改与记录相关联的信息的一个或多个实体,该信息然后经由网络515派发给自然语言处理系统512。
与各种实施例一致地,自然语言处理系统512可以对客户端应用508所发送的记录提交做出响应。具体地,自然语言处理系统512可以对接收到的记录和/或与该记录相关的查询进行分析,以识别(可以帮助确定可能的偏见的)记录中的关键特征/特定主题。在一些实施例中,自然语言处理系统512可以包括自然语言处理器514、数据源524、搜索应用528以及记录模块530。自然语言处理器514可以是对记录进行分析的计算机模块。自然语言处理器514可以执行用于对记录进行分析(例如句法分析、语义分析等)的各种方法和技术。自然语言处理器514可以被配置为辨识并分析任何数量的自然语言。在一些实施例中,自然语言处理器514可以将记录的一个或多个章节(例如构成要素、句子、单词等)分组为一个或多个细分。此外,自然语言处理器514可以包括各种模块,以执行记录的分析。这些模块可以包括但不限于分词器516、词性(POS)标注器518(例如可以标记识别出特定主题的一个或多个章节中的每个章节)、语义关系识别器520以及句法关系识别器522。
在一些实施例中,分词器516可以是执行词汇分析的计算机模块。分词器516可以将字符序列(例如图像、声音等)转换为词符(token)序列。词符可以是记录中所包括的并且被归类为有意义的符号的字符串。此外,在一些实施例中,分词器516可以识别记录中的单词边界,并且将该记录内的任何文本(例如来自隐藏式字幕等)分成它们的组成文本元素,诸如单词、多词词符、数字和标点符号。在一些实施例中,分词器516可以接收字符串,识别该串中的词素,并且将它们归类为词符。
与各种实施例一致地,POS标注器518可以是标记记录中的单词以对特定的词性做出响应的计算机模块。POS标注器518可以读取自然语言的段落或其他文本,并且将词性分配给每个单词或者其他词符。POS标注器518可以基于单词的定义和该单词的上下文来确定该单词(或其他口语元素)所对应的词性。单词的上下文可以基于其与短语、句子或段落中的相邻且相关的单词的关系。在一些实施例中,单词的上下文可以取决于一个或多个先前分析的查询、文档、文本、记录等(例如一个记录的内容可以阐明另一个记录中的一个或多个主题的意义)。可以分配给单词的词性的例子包括但不限于名词、动词、形容词、副词等。POS标注器518可以分配的其他词性类别的例子包括但不限于比较级副词或最高级副词、wh副词、连词、确定词、否定词、所有格标记、介词、wh代词等。在一些实施例中,POS标注器518可以用词性类别标记记录的词符或者以给记录的词符作注解。在一些实施例中,POS标注器518可以标记要由自然语言处理系统512解析的查询和/或记录的词符或单词。
在一些实施例中,语义关系识别器520可以是可以被配置为识别记录中的辨识出的主题(例如单词、短语、图像等)的语义关系的计算机模块。在一些实施例中,语义关系识别器520可以确定实体之间的功能依赖性和其他语义关系。
与各种实施例一致地,句法关系识别器522可以是可以被配置为识别由词符组成的记录中的句法关系的计算机模块。句法关系识别器522可以确定句子的语法结构,诸如,举例来说,哪些组单词被关联为短语以及哪个单词是动词的主语或宾语。句法关系识别器522可以遵循形式语法。
在一些实施例中,自然语言处理器514可以是可以将记录的章节分组为细分并且针对查询和/或记录的一个或多个细分生成对应的数据结构的计算机模块。例如,响应于在自然语言处理系统512处接收到记录,自然语言处理器514可以将该记录的细分作为数据结构输出。在一些实施例中,细分可以以图形结构的形式来表示。为了生成细分,自然语言处理器514可以触发计算机模块516-522。
在一些实施例中,自然语言处理器514的输出可以被搜索应用528用来执行(例如一个或多个)语料库的集合的搜索,以检索包括与查询相关联的特定主题的一个或多个细分,并且将输出发送给图像处理系统和比较器。如本文中所使用的,语料库可以是指一个或多个数据源,诸如图5的数据源524。在一些实施例中,数据源524可以包括视频库、数据仓库、信息语料库、数据模型以及文档储存库。在一些实施例中,数据源524可以包括信息语料库526。信息语料库526可以启用数据存储和检索。在一些实施例中,信息语料库526可以是容纳图像和对话的标准化的、一致的、干净的且整合的列表的主题储存库。数据可以来源于各种操作系统。存储在信息语料库526中的数据可以以具体地解决报告和分析要求的方式结构化。在一些实施例中,信息语料库526可以是关系数据库。
在一些实施例中,记录模块530可以是识别记录的构成要素和/或记录本身内的共同(例如信息)特征和(例如示出偏见的)关键特征的计算机模块。在一些实施例中,记录模块530可以包括共同特征识别器532和关键特征识别器534。当记录被自然语言处理系统512接收时,记录模块530可以被配置为使用自然语言处理对记录进行分析,以识别关键特征/特定主题。记录模块530可以首先使用自然语言处理器514和相关的子组件516-522来识别记录中的一个或多个特征/主题。在识别出所述一个或多个主题之后,共同特征识别器532可以识别存在于记录的章节中的一个或多个共同特征。在一些实施例中,章节中的共同特征可以是识别出的相同主题。一旦识别出共同特征,共同特征识别器532就可以被配置为将包括该共同特征的章节发送给图像处理系统(在图4中示出)和/或比较器(例如图4的阈值分析模块448)。
在使用共同特征识别器532识别出记录的共同特征之后,记录模块530可以将具有共同特征的记录的章节分组为细分。关键特征识别器534然后可以识别记录的细分中的关键特征/特定主题。在一些实施例中,所述特定主题可以具有在记录的一个或多个章节中识别出的共同特征中的一个或多个共同特征。在识别出与查询相关的特定主题之后,关键特征识别器534可以被配置为将准则发送给图像处理系统(在图4中示出)和/或比较器。
也就是说,共同特征识别器532识别出的记录的共同特征可以被分组在一起,并且被指定为与偏见无关的信息性特征/临时特征,并且关键特征识别器识别出的关键特征可以被分组在一起,并且被指定为与偏见有关的特征。
首先应当理解,尽管本公开包括关于云计算的详细描述,但其中记载的技术方案的实现却不限于云计算环境,而是能够结合现在已知或以后开发的任何其它类型的计算环境而实现。
云计算是一种服务交付模式,用于对共享的可配置计算资源池进行方便、按需的网络访问。可配置计算资源是能够以最小的管理成本或与服务提供者进行最少的交互就能快速部署和释放的资源,例如可以是网络、网络带宽、服务器、处理、内存、存储、应用、虚拟机和服务。这种云模式可以包括至少五个特征、至少三个服务模型和至少四个部署模型。
特征包括:
按需自助式服务:云的消费者在无需与服务提供者进行人为交互的情况下能够单方面自动地按需部署诸如服务器时间和网络存储等的计算能力。
广泛的网络接入:计算能力可以通过标准机制在网络上获取,这种标准机制促进了通过不同种类的瘦客户机平台或厚客户机平台(例如移动电话、膝上型电脑、个人数字助理PDA)对云的使用。
资源池:提供者的计算资源被归入资源池并通过多租户(multi-tenant)模式服务于多重消费者,其中按需将不同的实体资源和虚拟资源动态地分配和再分配。一般情况下,消费者不能控制或甚至并不知晓所提供的资源的确切位置,但可以在较高抽象程度上指定位置(例如国家、州或数据中心),因此具有位置无关性。
迅速弹性:能够迅速、有弹性地(有时是自动地)部署计算能力,以实现快速扩展,并且能迅速释放来快速缩小。在消费者看来,用于部署的可用计算能力往往显得是无限的,并能在任意时候都能获取任意数量的计算能力。
可测量的服务:云系统通过利用适于服务类型(例如存储、处理、带宽和活跃用户帐号)的某种抽象程度的计量能力,自动地控制和优化资源效用。可以监测、控制和报告资源使用情况,为服务提供者和消费者双方提供透明度。
服务模型如下:
软件即服务(SaaS):向消费者提供的能力是使用提供者在云基础架构上运行的应用。可以通过诸如网络浏览器的瘦客户机接口(例如基于网络的电子邮件)从各种客户机设备访问应用。除了有限的特定于用户的应用配置设置外,消费者既不管理也不控制包括网络、服务器、操作系统、存储、乃至单个应用能力等的底层云基础架构。
平台即服务(PaaS):向消费者提供的能力是在云基础架构上部署消费者创建或获得的应用,这些应用利用提供者支持的程序设计语言和工具创建。消费者既不管理也不控制包括网络、服务器、操作系统或存储的底层云基础架构,但对其部署的应用具有控制权,对应用托管环境配置可能也具有控制权。
基础架构即服务(IaaS):向消费者提供的能力是消费者能够在其中部署并运行包括操作系统和应用的任意软件的处理、存储、网络和其他基础计算资源。消费者既不管理也不控制底层的云基础架构,但是对操作系统、存储和其部署的应用具有控制权,对选择的网络组件(例如主机防火墙)可能具有有限的控制权。
部署模型如下:
私有云:云基础架构单独为某个组织运行。云基础架构可以由该组织或第三方管理并且可以存在于该组织内部或外部。
共同体云:云基础架构被若干组织共享并支持有共同利害关系(例如任务使命、安全要求、政策和合规考虑)的特定共同体。共同体云可以由共同体内的多个组织或第三方管理并且可以存在于该共同体内部或外部。
公共云:云基础架构向公众或大型产业群提供并由出售云服务的组织拥有。
混合云:云基础架构由两个或更多部署模型的云(私有云、共同体云或公共云)组成,这些云依然是独特的实体,但是通过使数据和应用能够移植的标准化技术或私有技术(例如用于云之间的负载平衡的云突发流量分担技术)绑定在一起。
云计算环境是面向服务的,特点集中在无状态性、低耦合性、模块性和语意的互操作性。云计算的核心是包含互连节点网络的基础架构。
现在参考图6,其中显示了示例性的云计算环境610。如图所示,云计算环境610包括云计算消费者使用的本地计算设备可以与其相通信的一个或者多个云计算节点600,本地计算设备例如可以是个人数字助理(PDA)或移动电话600A,台式电脑600B、笔记本电脑600C和/或汽车计算机系统600N。云计算节点600之间可以相互通信。可以在包括但不限于如上所述的私有云、共同体云、公共云或混合云或者它们的组合的一个或者多个网络中将云计算节点10进行物理或虚拟分组(图中未显示)。
这样,云的消费者无需在本地计算设备上维护资源就能请求云计算环境610提供的基础架构即服务(IaaS)、平台即服务(PaaS)和/或软件即服务(SaaS)。应当理解,图6显示的各类计算设备600A-N仅仅是示意性的,云计算节点600以及云计算环境610可以与任意类型网络上和/或网络可寻址连接的任意类型的计算设备(例如使用网络浏览器)通信。
现在参考图7,其中显示了云计算环境610(图6)提供的一组功能抽象层。首先应当理解,图7所示的组件、层以及功能都仅仅是示意性的,本发明的实施例不限于此。如下面所描绘的,提供下列层和对应功能:
硬件和软件层700包括硬件和软件组件。硬件组件的例子包括:主机702;基于RISC(精简指令集计算机)体系结构的服务器704;服务器706;刀片服务器708;存储设备710;网络和网络组件712。在一些实施例中,软件组件的例子包括:网络应用服务器软件714以及数据库软件716。
虚拟层720提供一个抽象层,该层可以提供下列虚拟实体的例子:虚拟服务器722、虚拟存储724、虚拟网络726(包括虚拟私有网络)、虚拟应用和操作系统728,以及虚拟客户端730。
在一个示例中,管理层740可以提供下述功能:资源供应功能742:提供用于在云计算环境中执行任务的计算资源和其它资源的动态获取;计量和定价功能744:在云计算环境内对资源的使用进行成本跟踪,并为此提供帐单和发票。在一个例子中,该资源可以包括应用软件许可。安全功能:为云的消费者和任务提供身份认证,为数据和其它资源提供保护。用户门户功能746:为消费者和系统管理员提供对云计算环境的访问。服务水平管理功能748:提供云计算资源的分配和管理,以满足必需的服务水平。服务水平协议(SLA)计划和履行功能750:为根据SLA预测的对云计算资源未来需求提供预先安排和供应。
工作负载层760提供云计算环境可能实现的功能的示例。在该层中,可提供的工作负载或功能的示例包括:地图绘制与导航762;软件开发及生命周期管理764;虚拟教室的教学提供766;数据分析处理768;交易处理770;以及媒体概括772。
现在参照图8,该图示出了根据本公开的实施例的可以用于(例如使用一个或多个处理器电路或者计算机的计算机处理器)实现本文中所描述的方法、工具和模块中的一个或多个以及任何相关的功能的示例计算机系统801的高级框图。在一些实施例中,计算机系统801的主要组件可以包括一个或多个CPU 802、存储器子系统804、终端接口812、存储接口816、I/O(输入/输出)设备接口814以及网络接口818,它们全都可以直接或间接通信地耦合,以经由存储器总线803、I/O总线808和I/O总线接口单元810进行组件间通信。
计算机系统801可以包含一个或多个通用可编程中央处理单元(CPU)802A、802B、802C和802D,这些CPU在本文中被统称为CPU 802。在一些实施例中,计算机系统801可以包含相对大型的系统典型的多个处理器;然而,在其他实施例中,计算机系统801可以可替代地是单个CPU系统。每个CPU 802可以执行存储在存储器子系统804中的指令,并且可以包括一个或多个级别的板载高速缓存。
系统存储器804可以包括易失性存储器的形式的计算机系统可读介质,诸如随机存取存储器(RAM)822或者高速缓存存储器824。计算机系统801可以还包括其他可移除/不可移除、易失性/非易失性计算机系统存储介质。仅举例来说,存储系统826可以被提供为对不可移除、非易失性磁性介质(诸如“硬盘驱动器”)进行读写。尽管未示出,但是可以提供用于对可移除、非易失性磁盘(例如“软盘”)进行读写的磁盘驱动器,或者用于对可移除、非易失性光盘(诸如CD-ROM、DVD-ROM或其他光学介质)进行读写的光盘驱动器。另外,存储器804可以包括闪存,例如,闪存棒驱动器或快闪驱动器。存储器设备可以通过一个或多个数据介质接口连接到存储器总线803。存储器804可以包括具有被配置为执行各种实施例的功能的一组(例如至少一个)程序模块的至少一个程序产品。
各具有至少一组程序模块830的一个或多个程序/实体828可以存储在存储器804中。程序/实体828可以包括管理程序(也被称为虚拟机监视器)、一个或多个操作系统、一个或多个应用程序、其他程序模块以及程序数据。操作系统、一个或多个应用程序、其他程序模块和程序数据或者其某个组合中的每一个都可以包括联网环境的实现。程序828和/或程序模块830一般执行各种实施例的功能或方法。
尽管存储器总线803在图8中被示为提供CPU 802、存储器子系统804和I/O总线接口810之间的直接通信路径的单个总线结构,但是在一些实施例中,存储器总线803可以包括可以按各种形式中的任何形式布置的多个不同的总线或者通信路径,诸如分层配置、星形配置或web配置中的点对点链路、多个分层总线、并行且冗余的路径或者任何其他适当的类型的配置。此外,虽然I/O总线接口810和I/O总线808被示为单个的相应单元,但是在一些实施例中,计算机系统801可以包含多个I/O总线接口单元810、多个I/O总线808或者这二者。此外,虽然示出了将I/O总线808与延展到各种I/O设备的各种通信路径分开的多个I/O接口单元,但是在其他实施例中,I/O设备中的一些或全部可以直接连接到一个或多个系统I/O总线。
在一些实施例中,计算机系统801可以是多用户大型机计算机系统、单用户系统或者具有很少甚至没有直接用户接口、但是从其他计算机系统(客户端)接收请求的服务器计算机或类似设备。此外,在一些实施例中,计算机系统801可以被实现为台式计算机、便携式计算机、膝上型或笔记本计算机、平板计算机、口袋计算机、电话、智能电话、网络交换机或路由器或者任何其他适当类型的电子设备。
注意,图8意图描绘示例性计算机系统801的代表性主要组件。然而,在一些实施例中,独立的组件可以具有比图8中所表示的组件高或低的复杂性,可以存在不同于图8所示的那些组件的组件或者除了图8所示的那些组件之外的组件,并且这样的组件的数量、类型和配置可以变化。
如本文中更详细地讨论的,设想本文中所描述的方法的实施例中的一些实施例的操作中的一些或全部可以按可替代的次序执行,或者可以根本不执行;此外,多个操作可以同时发生,或者作为更大的处理的内部部分发生。
在任何可能的技术细节结合层面,本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以实现为一个步骤,以部分或全部时间上重叠的方式并行地执行,基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
尽管已经根据特定实施例描述了本发明,但是预期其更改和修改对于本领域技术人员将变得清楚。因此,意图使权利要求书被解释为涵盖落在本发明的真实的精神和范围内的所有的这样的更改和修改。
Claims (41)
1.一种计算机实现的方法,包括:
由处理器接收记录,其中,所述记录包括一个或多个文本片段;
用指示符标记每个文本片段,其中,所述指示符表示每个相应的文本片段中的特定的偏见实例;
自动地生成所述记录的概要,其中,所述记录的概要包括文本片段的集合,并且其中,所述文本片段的集合具有与所述记录不同的整体偏见;以及
向用户显示所述记录的概要。
2.根据权利要求1所述的方法,其中,用指示符标记每个文本片段包括:
使用自然语言处理技术对所述一个或多个文本片段进行分析;以及
根据所述分析识别所述一个或多个文本片段中的每个文本片段内的关键文本触发器,其中,所述关键文本触发器是被识别为指示偏见的一个或多个单词。
3.根据权利要求2所述的方法,其中,识别关键文本触发器包括:
摄取训练记录的一个或多个语料库,其中,所述训练记录包括参考的偏见实例;
根据所述训练记录的上下文确定所述训练记录中的每个训练记录的偏见程度;以及
将所述训练记录中的每个训练记录的偏见程度与相应的单词相关联。
4.根据权利要求3所述的方法,还包括:
确定所述一个或多个文本片段中的一个片段包括第一相应单词;以及
基于所述第一相应单词将所述偏见程度与所述一个片段相关联。
5.根据权利要求1所述的方法,其中,生成所述记录的概要包括:
识别要用于所述概要的设定的数量的文本片段;
针对能够基于所述设定的数量生成的所述一个或多个文本片段的每种排列生成链,其中,所述链基于文本的指示符的每个片段;以及
选择对所述整体偏见具有改变的第一链,其中,自动地确定对所述整体偏见的改变,以限制最初的整体偏见。
6.根据权利要求5所述的方法,其中,针对能够基于所述设定的数量生成的所述一个或多个文本片段的每种排列生成链包括:
一次一个链接地为每个链生成链接,一直到所述设定的数量;
在包括新的链接之后对每个链进行分析;
在每个新的链接之后确定一个或多个链是否在偏见阈值以上;以及
排除所述一个或多个链中的在所述偏见阈值以上的每个链,不向该链添加新的链接,并且不认为该链是要用于所述概要的链。
7.根据权利要求5所述的方法,其中,选择对所述整体偏见具有改变的第一链包括:
从针对所述一个或多个片段的每种排列的每个链中识别出每个链的相应的预测偏见;
排除具有在偏见阈值以上的相应的预测偏见的每个链;
排除具有在信息阈值以下的相应的预测偏见的每个链;以及
在排除具有在所述偏见阈值以上的相应的预测偏见的每个链并且排除具有在所述信息阈值以下的相应的预测偏见的每个链之后,对每个剩余的链进行排名,其中,所述第一链是排名在剩下的其他链中的每个链以上的链。
8.一种系统,包括:
存储器;以及
与所述存储器通信的处理器,所述处理器被配置为执行操作,所述操作包括:
接收记录,其中,所述记录包括一个或多个文本片段;
用指示符标记每个文本片段,其中,所述指示符表示每个相应的文本片段中的特定的偏见实例;
自动地生成所述记录的概要,其中,所述记录的概要包括文本片段的集合,并且其中,所述文本片段的集合具有与所述记录不同的整体偏见;以及
向用户显示所述记录的概要。
9.根据权利要求8所述的系统,其中,用指示符标记每个文本片段包括:
使用自然语言处理技术对所述一个或多个文本片段进行分析;以及
根据所述分析识别所述一个或多个文本片段中的每个文本片段内的关键文本触发器,其中,所述关键文本触发器是被识别为指示偏见的一个或多个单词。
10.根据权利要求9所述的系统,其中,识别关键文本触发器包括:
摄取训练记录的一个或多个语料库,其中,所述训练记录包括参考的偏见实例;
根据所述训练记录的上下文确定所述训练记录中的每个训练记录的偏见程度;以及
将所述训练记录中的每个训练记录的偏见程度与相应的单词相关联。
11.根据权利要求10所述的系统,其中,所述操作还包括:
确定所述一个或多个文本片段中的一个片段包括第一相应单词;以及
基于所述第一相应单词将所述偏见程度与所述一个片段相关联。
12.根据权利要求8所述的系统,其中,生成所述记录的概要包括:
识别要用于所述概要的设定的数量的文本片段;
针对能够基于所述设定的数量生成的所述一个或多个文本片段的每种排列生成链,其中,所述链基于文本的指示符的每个片段;以及
选择对所述整体偏见具有改变的第一链,其中,自动地确定对所述整体偏见的改变,以限制最初的整体偏见。
13.根据权利要求12所述的系统,其中,针对能够基于所述设定的数量生成的所述一个或多个文本片段的每种排列生成链包括:
一次一个链接地为每个链生成链接,一直到所述设定的数量;
在包括新的链接之后对每个链进行分析;
在每个新的链接之后确定一个或多个链是否在偏见阈值以上;以及
排除所述一个或多个链中的在所述偏见阈值以上的每个链,不向该链添加新的链接,并且不认为该链是要用于所述概要的链。
14.根据权利要求12所述的系统,其中,选择对所述整体偏见具有改变的第一链包括:
从针对所述一个或多个片段的每种排列的每个链中识别出每个链的相应的预测偏见;
排除具有在偏见阈值以上的相应的预测偏见的每个链;
排除具有在信息阈值以下的相应的预测偏见的每个链;以及
在排除具有在所述偏见阈值以上的相应的预测偏见的每个链并且排除具有在所述信息阈值以下的相应的预测偏见的每个链之后,对每个剩余的链进行排名,其中,所述第一链是排名在剩下的其他链中的每个链以上的链。
15.一种包括计算机可读存储介质的计算机程序产品,所述计算机可读存储介质具有通过其实施的程序指令,所述程序指令是处理器能够执行的,以使所述处理器执行方法,所述方法包括:
由处理器接收记录,其中,所述记录包括一个或多个文本片段;
用指示符标记每个文本片段,其中,所述指示符表示每个相应的文本片段中的特定的偏见实例;
自动地生成所述记录的概要,其中,所述记录的概要包括文本片段的集合,并且其中,所述文本片段的集合具有与所述记录不同的整体偏见;以及
向用户显示所述记录的概要。
16.根据权利要求15所述的计算机程序产品,其中,用指示符标记每个文本片段包括:
使用自然语言处理技术对所述一个或多个文本片段进行分析;以及
根据所述分析识别所述一个或多个文本片段中的每个文本片段内的关键文本触发器,其中,所述关键文本触发器是被识别为指示偏见的一个或多个单词。
17.根据权利要求16所述的计算机程序产品,其中,识别关键文本触发器包括:
摄取训练记录的一个或多个语料库,其中,所述训练记录包括参考的偏见实例;
根据所述训练记录的上下文确定所述训练记录中的每个训练记录的偏见程度;以及
将所述训练记录中的每个训练记录的偏见程度与相应的单词相关联。
18.根据权利要求17所述的计算机程序产品,还包括:
确定所述一个或多个文本片段中的一个片段包括第一相应单词;以及
基于所述第一相应单词将所述偏见程度与所述一个片段相关联。
19.根据权利要求15所述的计算机程序产品,其中,生成所述记录的概要包括:
识别要用于所述概要的设定的数量的文本片段;
针对能够基于所述设定的数量生成的所述一个或多个文本片段的每种排列生成链,其中,所述链基于文本的指示符的每个片段;以及
选择对所述整体偏见具有改变的第一链,其中,自动地确定对所述整体偏见的改变,以限制最初的整体偏见。
20.根据权利要求19所述的计算机程序产品,其中,针对能够基于所述设定的数量生成的所述一个或多个文本片段的每种排列生成链包括:
一次一个链接地为每个链生成链接,一直到所述设定的数量;
在包括新的链接之后对每个链进行分析;
在每个新的链接之后确定一个或多个链是否在偏见阈值以上;以及
排除所述一个或多个链中的在所述偏见阈值以上的每个链,不向该链添加新的链接,并且不认为该链是要用于所述概要的链。
21.一种计算机实现的方法,包括:
由处理器接收记录,其中,所述记录包括一个或多个文本片段;
自动地生成所述记录的第一概要;
确定所述第一概要的整体偏见,其中,所述第一概要的整体偏见是从所述第一概要中的一个或多个偏见实例中识别出的;
生成所述记录的第二概要,其中,所述记录的第二概要包括所述第一概要的整体偏见的指示符,并且其中,所述指示符包括所述第一概要的整体偏见的类型的描述和所述第一概要的整体偏见的数值;
确定所述第二概要的整体偏见;以及
向用户显示所述记录的第二概要。
22.根据权利要求21所述的方法,其中,确定所述第一概要的整体偏见包括:
对所述第一概要的每个构成要素进行分析;
针对每个构成要素识别偏见程度;
用相应的偏见程度指示符标记每个构成要素;以及
根据每个偏见程度指示符确定差异性影响比率,其中,所述差异性影响比率与所述第一概要的整体偏见的数值相关联。
23.根据权利要求21所述的方法,其中,生成所述记录的第二概要包括:
生成所述第二概要的第一构成要素;
通过利用所述第一概要的整体偏见的指示符,确定生成所述第二概要的第二构成要素,其中,所述第一构成要素和所述第二构成要素的组合不超过所述第一概要的整体偏见的数值;以及
确定不生成所述第二概要的第三构成要素,其中,所述第一构成要素、所述第二构成要素和所述第三构成要素的组合超过所述第一概要的整体偏见的数值。
24.根据权利要求23所述的方法,其中,生成所述记录的第二概要还包括:
确定生成所述第二概要的第四构成要素,其中,所述第一构成要素、所述第二构成要素和所述第四构成要素的组合超过所述第一概要的整体偏见的数值;以及
确定生成所述第二概要的第五构成要素,其中,所述第五构成要素使所述第一构成要素、所述第二构成要素、所述第四构成要素和所述第五构成要素的组合降至所述第一概要的整体偏见的数值以下。
25.根据权利要求23所述的方法,其中,利用所述第一概要的整体偏见的指示符包括:
识别所述第一概要的整体偏见的类型;以及
将所述第二概要的整体偏见调节为所述第一概要的整体偏见的类型的相反类型。
26.根据权利要求25所述的方法,其中,将所述第二概要的整体偏见调节为所述第一概要的整体偏见的类型的相反类型包括:
在添加所述第二概要的每个新的构成要素之前执行优点/缺点分析,其中,所述优点/缺点分析包括:如果新的构成要素是所述第一概要的整体偏见的相同类型,则降低将所述新的构成要素添加到所述第二概要的概率,而如果新的构成要素是所述第一概要的整体偏见的相反类型,则提高将所述新的构成要素添加到所述第二概要的概率。
27.根据权利要求21所述的方法,其中,向用户显示所述记录的第二概要包括:
确定所述第二概要的整体偏见的数值在所述第一概要的整体偏见的数值以下;
识别所述第二概要的整体偏见的数值在预定的偏见阈值以下;以及
同意显示所述第二概要。
28.一种系统,包括:
存储器;以及
与所述存储器通信的处理器,所述处理器被配置为执行操作,所述操作包括:
接收记录,其中,所述记录包括一个或多个文本片段;
自动地生成所述记录的第一概要;
确定所述第一概要的整体偏见,其中,所述第一概要的整体偏见是从所述第一概要中的一个或多个偏见实例中识别出的;
生成所述记录的第二概要,其中,所述记录的第二概要包括所述第一概要的整体偏见的指示符,并且其中,所述指示符包括所述第一概要的整体偏见的类型的描述和所述第一概要的整体偏见的数值;
确定所述第二概要的整体偏见;以及
向用户显示所述记录的第二概要。
29.根据权利要求28所述的系统,其中,确定所述第一概要的整体偏见包括:
对所述第一概要的每个构成要素进行分析;
针对每个构成要素识别偏见程度;
用相应的偏见程度指示符标记每个构成要素;以及
根据每个偏见程度指示符确定差异性影响比率,其中,所述差异性影响比率与所述第一概要的整体偏见的数值相关联。
30.根据权利要求28所述的系统,其中,生成所述记录的第二概要包括:
生成所述第二概要的第一构成要素;
通过利用所述第一概要的整体偏见的指示符,确定生成所述第二概要的第二构成要素,其中,所述第一构成要素和所述第二构成要素的组合不超过所述第一概要的整体偏见的数值;以及
确定不生成所述第二概要的第三构成要素,其中,所述第一构成要素、所述第二构成要素和所述第三构成要素的组合超过所述第一概要的整体偏见的数值。
31.根据权利要求30所述的系统,其中,生成所述记录的第二概要还包括:
确定生成所述第二概要的第四构成要素,其中,所述第一构成要素、所述第二构成要素和所述第四构成要素的组合超过所述第一概要的整体偏见的数值;以及
确定生成所述第二概要的第五构成要素,其中,所述第五构成要素使所述第一构成要素、所述第二构成要素、所述第四构成要素和所述第五构成要素的组合降至所述第一概要的整体偏见的数值以下。
32.根据权利要求30所述的系统,其中,利用所述第一概要的整体偏见的指示符包括:
识别所述第一概要的整体偏见的类型;以及
将所述第二概要的整体偏见调节为所述第一概要的整体偏见的类型的相反类型。
33.根据权利要求32所述的系统,其中,将所述第二概要的整体偏见调节为所述第一概要的整体偏见的类型的相反类型包括:
在添加所述第二概要的每个新的构成要素之前执行优点/缺点分析,其中,所述优点/缺点分析包括:如果新的构成要素是所述第一概要的整体偏见的相同类型,则降低将所述新的构成要素添加到所述第二概要的概率,而如果新的构成要素是所述第一概要的整体偏见的相反类型,则提高将所述新的构成要素添加到所述第二概要的概率。
34.根据权利要求28所述的系统,其中,向用户显示所述记录的第二概要包括:
确定所述第二概要的整体偏见的数值在所述第一概要的整体偏见的数值以下;
识别所述第二概要的整体偏见的数值在预定的偏见阈值以下;以及
同意显示所述第二概要。
35.一种包括计算机可读存储介质的计算机程序产品,所述计算机可读存储介质具有通过其实施的程序指令,所述程序指令是处理器能够执行的,以使所述处理器执行方法,所述方法包括:
由处理器接收记录,其中,所述记录包括一个或多个文本片段;
自动地生成所述记录的第一概要;
确定所述第一概要的整体偏见,其中,所述第一概要的整体偏见是从所述第一概要中的一个或多个偏见实例中识别出的;
生成所述记录的第二概要,其中,所述记录的第二概要包括所述第一概要的整体偏见的指示符,并且其中,所述指示符包括所述第一概要的整体偏见的类型的描述和所述第一概要的整体偏见的数值;
确定所述第二概要的整体偏见;以及
向用户显示所述记录的第二概要。
36.根据权利要求35所述的计算机程序产品,其中,确定所述第一概要的整体偏见包括:
对所述第一概要的每个构成要素进行分析;
针对每个构成要素识别偏见程度;
用相应的偏见程度指示符标记每个构成要素;以及
根据每个偏见程度指示符确定差异性影响比率,其中,所述差异性影响比率与所述第一概要的整体偏见的数值相关联。
37.根据权利要求35所述的计算机程序产品,其中,生成所述记录的第二概要包括:
生成所述第二概要的第一构成要素;
通过利用所述第一概要的整体偏见的指示符,确定生成所述第二概要的第二构成要素,其中,所述第一构成要素和所述第二构成要素的组合不超过所述第一概要的整体偏见的数值;以及
确定不生成所述第二概要的第三构成要素,其中,所述第一构成要素、所述第二构成要素和所述第三构成要素的组合超过所述第一概要的整体偏见的数值。
38.根据权利要求37所述的计算机程序产品,其中,生成所述记录的第二概要还包括:
确定生成所述第二概要的第四构成要素,其中,所述第一构成要素、所述第二构成要素和所述第四构成要素的组合超过所述第一概要的整体偏见的数值;以及
确定生成所述第二概要的第五构成要素,其中,所述第五构成要素使所述第一构成要素、所述第二构成要素、所述第四构成要素和所述第五构成要素的组合降至所述第一概要的整体偏见的数值以下。
39.根据权利要求37所述的计算机程序产品,其中,利用所述第一概要的整体偏见的指示符包括:
识别所述第一概要的整体偏见的类型;以及
将所述第二概要的整体偏见调节为所述第一概要的整体偏见的类型的相反类型。
40.根据权利要求39所述的计算机程序产品,其中,将所述第二概要的整体偏见调节为所述第一概要的整体偏见的类型的相反类型包括:
在添加所述第二概要的每个新的构成要素之前执行优点/缺点分析,其中,所述优点/缺点分析包括:如果新的构成要素是所述第一概要的整体偏见的相同类型,则降低将所述新的构成要素添加到所述第二概要的概率,而如果新的构成要素是所述第一概要的整体偏见的相反类型,则提高将所述新的构成要素添加到所述第二概要的概率。
41.一种系统,包括分别用于执行根据权利要求1-7、21-27中的任意一项所述的方法的步骤的模块。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/421,131 | 2019-05-23 | ||
US16/421,159 US11227099B2 (en) | 2019-05-23 | 2019-05-23 | Automatic summarization with bias minimization |
US16/421,131 US20200372056A1 (en) | 2019-05-23 | 2019-05-23 | Automatic summarization with bias minimization |
US16/421,159 | 2019-05-23 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111984781A true CN111984781A (zh) | 2020-11-24 |
CN111984781B CN111984781B (zh) | 2024-08-13 |
Family
ID=73442103
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010434049.3A Active CN111984781B (zh) | 2019-05-23 | 2020-05-21 | 偏见最小化的自动概括 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111984781B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11227099B2 (en) | 2019-05-23 | 2022-01-18 | International Business Machines Corporation | Automatic summarization with bias minimization |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103493040A (zh) * | 2011-04-21 | 2014-01-01 | 索尼公司 | 从文本中确定情感的方法 |
US9189514B1 (en) * | 2014-09-04 | 2015-11-17 | Lucas J. Myslinski | Optimized fact checking method and system |
CN106462558A (zh) * | 2014-10-30 | 2017-02-22 | 微软技术许可有限责任公司 | 用于合成混合幻灯片‑画布演示的创作工具 |
-
2020
- 2020-05-21 CN CN202010434049.3A patent/CN111984781B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103493040A (zh) * | 2011-04-21 | 2014-01-01 | 索尼公司 | 从文本中确定情感的方法 |
US9189514B1 (en) * | 2014-09-04 | 2015-11-17 | Lucas J. Myslinski | Optimized fact checking method and system |
CN106462558A (zh) * | 2014-10-30 | 2017-02-22 | 微软技术许可有限责任公司 | 用于合成混合幻灯片‑画布演示的创作工具 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11227099B2 (en) | 2019-05-23 | 2022-01-18 | International Business Machines Corporation | Automatic summarization with bias minimization |
Also Published As
Publication number | Publication date |
---|---|
CN111984781B (zh) | 2024-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10789552B2 (en) | Question answering system-based generation of distractors using machine learning | |
US11010700B2 (en) | Identifying task and personality traits | |
US10936956B2 (en) | Cognitive question answering pipeline blending | |
CN112417090B (zh) | 利用未提交的用户输入数据来提高任务性能 | |
US11663255B2 (en) | Automatic collaboration between distinct responsive devices | |
US11681932B2 (en) | Cognitive question answering pipeline calibrating | |
US11397954B2 (en) | Providing analytics on compliance profiles of type organization and compliance named entities of type organization | |
US20180060421A1 (en) | Query expansion | |
US11250219B2 (en) | Cognitive natural language generation with style model | |
US11188193B2 (en) | Method and system for generating a prioritized list | |
US20210141820A1 (en) | Omnichannel virtual assistant using artificial intelligence | |
US11809843B2 (en) | Adaptive user interfacing | |
US11416539B2 (en) | Media selection based on content topic and sentiment | |
US11429652B2 (en) | Chat management to address queries | |
US20210216706A1 (en) | Neural parser for snippets of dynamic virtual assistant conversation | |
TWI818695B (zh) | 用於反事實對話模擬之電腦實施方法、電腦程式產品及電腦系統 | |
CN111984781B (zh) | 偏见最小化的自动概括 | |
US20230376537A1 (en) | Multi-chunk relationship extraction and maximization of query answer coherence | |
US11899910B2 (en) | Multi-location copying and context based pasting | |
US11615245B2 (en) | Article topic alignment | |
US11227099B2 (en) | Automatic summarization with bias minimization | |
US11314785B2 (en) | Automatic visualization and inquiry generation | |
US20200372056A1 (en) | Automatic summarization with bias minimization | |
US11314931B2 (en) | Assistant dialog model generation | |
US12027070B2 (en) | Cognitive framework for identification of questions and answers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |